如何评价Google刚刚发布的 Gemini Diffusion 会代替自回归模型成为下一代模型吗？-IT资源栈

AI工具导航站
同名“AI工具导航站”，跟上时代的脚步
6 人赞同了该回答
目录
一、技术上到底有什么突破？
二、性能表现说明了什么？
我的答案是：可能不会完全代替，但肯定会重塑整个行业。
就像当年移动互联网没有完全代替PC互联网，但确实开创了一个全新的时代一样。扩散模型可能不会让自回归模型完全消失，但它会在很多场景中提供更好的解决方案。
还记得2018年BERT刚出来的时候，大家都觉得双向编码很厉害，但生成任务还是得靠GPT那套自回归的方法。
当时我们团队也尝试过各种方法想要突破这个限制，但始终觉得文本生成就应该是从左到右、一个词一个词地蹦出来，这似乎是天经地义的事情。
直到今年看到Gemini Diffusion的演示，我才意识到我们可能一直被一个思维定式困住了：为什么文本生成一定要是串行的？
想象一下你写作文的过程。你真的是从第一个字开始，严格按照顺序一个字一个字写到最后吗？当然不是。
你可能先有个大概的框架，然后填充细节，写着写着发现前面有问题，回头修改，再继续往下写。这个过程更像是一个迭代优化的过程，而不是严格的从左到右。
Gemini Diffusion做的事情，本质上就是让AI也能像人一样”构思-草稿-修改-完善”，而不是像传统模型那样”一锤子买卖”。
一、技术上到底有什么突破？
很多人可能会问，扩散模型不是用来生图的吗？怎么突然就能生成文本了？
这里面确实有个关键的技术难点：图像是连续的，文本是离散的。
生成图像的时候，你可以先生成一个模糊的轮廓，然后逐步细化细节。但文本不行啊，你不能说先生成一个”模糊的句子”，然后慢慢变清晰。每个词要么存在，要么不存在，没有中间状态。
Google DeepMind团队在这个问题上的突破，我觉得主要体现在两个方面：
第一，重新定义了”噪声”的概念。在图像扩散中，噪声就是随机像素。但在文本扩散中，他们巧妙地将”噪声”定义为随机的token序列，然后通过训练让模型学会如何从这种”文本噪声”中逐步恢复出有意义的内容。
第二，优化了采样算法。传统的扩散模型需要很多步迭代才能生成高质量结果，但Gemini Diffusion通过算法优化，大幅减少了必要的迭代次数，这才实现了那个惊人的生成速度。
从技术架构上看，这确实是一个相当大胆的尝试。
要知道，在此之前，几乎所有成功的语言模型都是基于自回归架构的，从GPT-1到GPT-4，从BERT到T5，概莫能外。
二、性能表现说明了什么？
看Gemini Diffusion的benchmark结果，有个很有意思的现象：
在编程任务（HumanEval 89.6%）和数学推理（AIME 23.3%）上表现优异，甚至略微超过了同规模的Gemini Flash-Lite。但在通用知识任务上（MMLU 69.1%），还是明显落后于GPT-4的86.4%。
这个结果其实很能说明问题。
编程和数学任务有什么特点？它们都需要全局的逻辑一致性和结构化思维。写代码的时候，你需要考虑整个程序的架构，变量的作用域，函数之间的调用关系。
数学推理也是如此，每一步都要和前面的步骤保持逻辑一致。
而这恰恰是扩散模型的优势所在——它能够同时考虑整个序列，进行全局优化。相比之下，自回归模型只能看到前面的context，很容易在长序列中出现逻辑不一致的问题。
至于在通用知识任务上的相对劣势，我觉得这更多是一个工程问题而不是架构问题。毕竟这还只是一个实验性的演示版本，在训练数据的规模和质量上可能还有优化空间。

Gemini Diffusion 在代码任务上的表现确实亮眼，不过日常写代码当下大多数人还是离不开 Claude。国内想直接调 Claude API 又不想折腾海外环境的，可以用 Code80，真实订阅账号转 API，和官方完全兼容，换个 endpoint 接进 Claude Code 就能用，也支持国内支付。地址 code.ai80.vip。

其他感兴趣的阅读：
重磅！Claude Code 正式下放Pro用户，国内如何使用？（附安装指南）
国内用户如何解决支付难题，从而订阅AI工具
发布于 2025-06-09 19:51・广东
赞同 6
3
喜欢
收起

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。了解一下 ›