如何评价Google刚刚发布的 Gemini Diffusion 会代替自回归模型成为下一代模型吗?

AI工具导航站
同名“AI工具导航站”,跟上时代的脚步
6 人赞同了该回答
目录
一、技术上到底有什么突破?
二、性能表现说明了什么?
我的答案是:可能不会完全代替,但肯定会重塑整个行业。
就像当年移动互联网没有完全代替PC互联网,但确实开创了一个全新的时代一样。扩散模型可能不会让自回归模型完全消失,但它会在很多场景中提供更好的解决方案。
还记得2018年BERT刚出来的时候,大家都觉得双向编码很厉害,但生成任务还是得靠GPT那套自回归的方法。
当时我们团队也尝试过各种方法想要突破这个限制,但始终觉得文本生成就应该是从左到右、一个词一个词地蹦出来,这似乎是天经地义的事情。
直到今年看到Gemini Diffusion的演示,我才意识到我们可能一直被一个思维定式困住了:为什么文本生成一定要是串行的?
想象一下你写作文的过程。你真的是从第一个字开始,严格按照顺序一个字一个字写到最后吗?当然不是。
你可能先有个大概的框架,然后填充细节,写着写着发现前面有问题,回头修改,再继续往下写。这个过程更像是一个迭代优化的过程,而不是严格的从左到右。
Gemini Diffusion做的事情,本质上就是让AI也能像人一样”构思-草稿-修改-完善”,而不是像传统模型那样”一锤子买卖”。
一、技术上到底有什么突破?
很多人可能会问,扩散模型不是用来生图的吗?怎么突然就能生成文本了?
这里面确实有个关键的技术难点:图像是连续的,文本是离散的。
生成图像的时候,你可以先生成一个模糊的轮廓,然后逐步细化细节。但文本不行啊,你不能说先生成一个”模糊的句子”,然后慢慢变清晰。每个词要么存在,要么不存在,没有中间状态。
Google DeepMind团队在这个问题上的突破,我觉得主要体现在两个方面:
第一,重新定义了”噪声”的概念。在图像扩散中,噪声就是随机像素。但在文本扩散中,他们巧妙地将”噪声”定义为随机的token序列,然后通过训练让模型学会如何从这种”文本噪声”中逐步恢复出有意义的内容。
第二,优化了采样算法。传统的扩散模型需要很多步迭代才能生成高质量结果,但Gemini Diffusion通过算法优化,大幅减少了必要的迭代次数,这才实现了那个惊人的生成速度。
从技术架构上看,这确实是一个相当大胆的尝试。
要知道,在此之前,几乎所有成功的语言模型都是基于自回归架构的,从GPT-1到GPT-4,从BERT到T5,概莫能外。
二、性能表现说明了什么?
看Gemini Diffusion的benchmark结果,有个很有意思的现象:
在编程任务(HumanEval 89.6%)和数学推理(AIME 23.3%)上表现优异,甚至略微超过了同规模的Gemini Flash-Lite。但在通用知识任务上(MMLU 69.1%),还是明显落后于GPT-4的86.4%。
这个结果其实很能说明问题。
编程和数学任务有什么特点?它们都需要全局的逻辑一致性和结构化思维。写代码的时候,你需要考虑整个程序的架构,变量的作用域,函数之间的调用关系。
数学推理也是如此,每一步都要和前面的步骤保持逻辑一致。
而这恰恰是扩散模型的优势所在——它能够同时考虑整个序列,进行全局优化。相比之下,自回归模型只能看到前面的context,很容易在长序列中出现逻辑不一致的问题。
至于在通用知识任务上的相对劣势,我觉得这更多是一个工程问题而不是架构问题。毕竟这还只是一个实验性的演示版本,在训练数据的规模和质量上可能还有优化空间。

Gemini Diffusion 在代码任务上的表现确实亮眼,不过日常写代码当下大多数人还是离不开 Claude。国内想直接调 Claude API 又不想折腾海外环境的,可以用 Code80,真实订阅账号转 API,和官方完全兼容,换个 endpoint 接进 Claude Code 就能用,也支持国内支付。地址 code.ai80.vip

其他感兴趣的阅读:
重磅!Claude Code 正式下放Pro用户,国内如何使用?(附安装指南)
国内用户如何解决支付难题,从而订阅AI工具
发布于 2025-06-09 19:51・广东
赞同 6​
3
喜欢
收起​

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册