别再只盯着 "AO" 两家的新模型大战了!
就在刚刚,谷歌闷头干了件大事:
把生成图片的扩散模型,拿来写文字了,而且一出手就是4 倍加速。
新模型名为 DiffusionGemma,它直接抛弃了传统自回归那套 " 逐 Token 生成 " 的打字机模式,而是像 " 印刷机 " 一样工作——
一次铺开 256 个 token 的 " 画布 ",从随机噪声出发,多轮去噪,整段文字同时浮现。

单块 H100 上每秒 1000+ tokens,消费级 RTX 5090 上 700+,比同规格自回归模型快了 4 倍。
更关键的是,这个 26B 参数的 MoE 模型,推理时只激活 3.8B 参数,量化后 18GB 显存就能装下。
翻译过来就是,一张 4090 就能本地跑。
目前 DiffusionGemma 采用允许商用的 Apache 2.0 开源协议,权重可在 Hugging Face 直接下载。
天下武功,唯快不破
说到这估计大家都明白了,DiffusionGemma 身上最大的标签无疑就是 " 快 "。
有多快呢?成绩单说话。
在同一块 H100 上(fp8,batch size=1),DiffusionGemma 跑出了 1000+ tokens/s,而采用标准自回归的 Gemma 4 26B A4B 加上 MTP 加速也只有 300+ tokens/s ——
速度拉开近 4 倍。

今天的主流大模型,不管是 GPT、Claude 还是 Gemini,底层都是自回归架构——就像一台打字机,从左到右,一个 token 一个 token 地敲出来。每生成一个新词,都要重新加载一遍几十亿参数的模型权重。
在云端,这不是大问题。服务器可以同时处理上千个用户请求,把硬件利用率拉满。
但如果你在本地跑模型,场景就完全不同了——
只有你一个人在用,GPU 的大量算力其实在空转,等着一个字一个字地往外蹦。
工程师管这叫 " 内存带宽瓶颈 "(memory-bandwidth bound)。

回想一下,扩散模型在生成图片时,是不是直接对整张图的所有像素同时去噪——
没错,其工作方式就是一次性对一整块 token 同时操作,天然 " 并行 "。
这意味着 GPU 一次性接到一大块并行计算任务,Tensor Core 火力全开,不再干等。计算瓶颈从 " 内存搬不过来 " 变成了 " 算力够不够 ",而算力恰恰是 GPU 最不缺的东西。
具体到 DiffusionGemma,原理和 Stable Diffusion 一样,只不过去噪得到的不是图片,而是文字。
Step 1:铺开一张全是随机占位符的 256 个 token 的画布。
Step 2:多轮迭代去噪,高置信度的 token 先锁定,再用它们当上下文线索去修正其余部分。
Step 3:整段文字收敛为最终输出。
用谷歌自己的比喻,这是从单线程的打字机,升级成了整版印刷的印刷机。
看看下面这个 Hugging Face 制作的 DiffusionGemma 文本到 3D SVG 演示,可以直观感受逐步生成的过程——
模型不是从第一行代码写到最后一行,而是整块 SVG 代码同时浮现、同时修正,最终收敛成一把完整的 3D 宝剑。

速度之外,DiffusionGemma 身上还有一个点值得关注:双向注意力。
传统自回归模型只能往前看,模型在生成第 N+1 个 token 时,只能看到第 1 到第 N 个 token,看不到自己还没写出来的未来内容。
而 DiffusionGemma 的 256 个 token 同时生成,每个 token 都能看到画布上所有其他 token,前后文同时可见。
这就带来了一个自回归模型很难做到的能力——实时自我纠错。
模型边生成边评估整段文字的一致性,发现不对立刻修正,不用等全写完再回头改。
这里谷歌举了个直观例子:数独。

但 DiffusionGemma 微调后成功率从 0% 飙到 80%。
所以,如果未来接触到代码补全、行内编辑、复杂 markdown 格式化……这些 " 需要前后文同时协调 " 的场景,扩散模型无疑更有结构性优势。
谷歌 CEO 皮猜:DiffusionGemma 是一匹 " 赛马 "
不过这也并不是说扩散模型就千好万好。
其最大局限在图像生成领域也已得到验证,那就是速度和质量的平衡——
去噪步数越少速度越快,但质量越差;步数越多质量越好,但速度优势也就越小。
质量方面,和同参数量的 Gemma 4 26B A4B 相比,DiffusionGemma 在多项基准上确实存在差距。
谷歌也很坦诚,生产环境推荐标准 Gemma 4,DiffusionGemma 面向的是速度敏感的本地交互场景。

先把速度提起来。
它目前只是谷歌对下一代模型形态的一次实验:
如果不再执着于一个 token 一个 token 往外生成,而是让模型充分利用现代 GPU 的并行算力,大模型的速度上限究竟还能被推到多高?

早在今年 2 月,初创公司 Inception Labs 就发布了扩散文本模型 Mercury 2,号称比 Claude、Gemini 快 5 到 10 倍,是业内第一个真正投产的扩散语言模型。
谷歌自己去年 I/O 上也展示过 Gemini Diffusion 实验,当时采样速度达到每秒 1479 token,但之后沉寂了一整年,外界一度猜测 " 跑不起来 "。
直到现在,DiffusionGemma 卷土重来,并且 NVIDIA 从 RTX 到 H100 全线给它护航——
4090 到 H100 到 DGX Spark 全覆盖,vLLM、MLX、Unsloth、NeMo 全部支持,llama.cpp 也在路上。

谷歌这次给 DiffusionGemma 配上的资源和生态支持,显然不是来做技术 Demo 的。
从模型到推理框架,再到硬件生态,DiffusionGemma 已经拿到了足够多的支持。
至于它最终能不能挑战自回归模型的主流地位,现在还没人知道。
但至少,谷歌把这条路真正开源了。
HuggingFace:
https://huggingface.co/unsloth/diffusiongemma-26B-A4B-it-GGUF
使用指南:
https://unsloth.ai/docs/models/diffusiongemma
参考链接:
[ 1 ] https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/
[ 2 ] https://x.com/googlegemma/status/2064741002204545467
[ 3 ] https://x.com/sundarpichai/status/2064744343743922189
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~

最新最专业的 AI 产品信息及分析
不定期发放的热门产品内测码
内部专属内容与专业讨论
点亮星标
科技前沿进展每日见