Mythos 阴影里谷歌悄悄发模型，速度暴涨 4 倍

别再只盯着 "AO" 两家的新模型大战了！

就在刚刚，谷歌闷头干了件大事：

把生成图片的扩散模型，拿来写文字了，而且一出手就是4 倍加速。

新模型名为 DiffusionGemma，它直接抛弃了传统自回归那套 " 逐 Token 生成 " 的打字机模式，而是像 " 印刷机 " 一样工作——

一次铺开 256 个 token 的 " 画布 "，从随机噪声出发，多轮去噪，整段文字同时浮现。

靠这套新模式，DiffusionGemma 在生成速度方面交出了亮眼的成绩：

单块 H100 上每秒 1000+ tokens，消费级 RTX 5090 上 700+，比同规格自回归模型快了 4 倍。

更关键的是，这个 26B 参数的 MoE 模型，推理时只激活 3.8B 参数，量化后 18GB 显存就能装下。

翻译过来就是，一张 4090 就能本地跑。

目前 DiffusionGemma 采用允许商用的 Apache 2.0 开源协议，权重可在 Hugging Face 直接下载。

天下武功，唯快不破

说到这估计大家都明白了，DiffusionGemma 身上最大的标签无疑就是 " 快 "。

有多快呢？成绩单说话。

在同一块 H100 上（fp8，batch size=1），DiffusionGemma 跑出了 1000+ tokens/s，而采用标准自回归的 Gemma 4 26B A4B 加上 MTP 加速也只有 300+ tokens/s ——

速度拉开近 4 倍。

而要理解 DiffusionGemma 为什么快，咱得先说说当前大模型为什么 " 慢 "。

今天的主流大模型，不管是 GPT、Claude 还是 Gemini，底层都是自回归架构——就像一台打字机，从左到右，一个 token 一个 token 地敲出来。每生成一个新词，都要重新加载一遍几十亿参数的模型权重。

在云端，这不是大问题。服务器可以同时处理上千个用户请求，把硬件利用率拉满。

但如果你在本地跑模型，场景就完全不同了——

只有你一个人在用，GPU 的大量算力其实在空转，等着一个字一个字地往外蹦。

工程师管这叫 " 内存带宽瓶颈 "（memory-bandwidth bound）。

而为了解决这一问题，DiffusionGemma 就盯上了扩散模型。

回想一下，扩散模型在生成图片时，是不是直接对整张图的所有像素同时去噪——

没错，其工作方式就是一次性对一整块 token 同时操作，天然 " 并行 "。

这意味着 GPU 一次性接到一大块并行计算任务，Tensor Core 火力全开，不再干等。计算瓶颈从 " 内存搬不过来 " 变成了 " 算力够不够 "，而算力恰恰是 GPU 最不缺的东西。

具体到 DiffusionGemma，原理和 Stable Diffusion 一样，只不过去噪得到的不是图片，而是文字。

Step 1：铺开一张全是随机占位符的 256 个 token 的画布。

Step 2：多轮迭代去噪，高置信度的 token 先锁定，再用它们当上下文线索去修正其余部分。

Step 3：整段文字收敛为最终输出。

用谷歌自己的比喻，这是从单线程的打字机，升级成了整版印刷的印刷机。

看看下面这个 Hugging Face 制作的 DiffusionGemma 文本到 3D SVG 演示，可以直观感受逐步生成的过程——

模型不是从第一行代码写到最后一行，而是整块 SVG 代码同时浮现、同时修正，最终收敛成一把完整的 3D 宝剑。

双向注意力：不止是快

速度之外，DiffusionGemma 身上还有一个点值得关注：双向注意力。

传统自回归模型只能往前看，模型在生成第 N+1 个 token 时，只能看到第 1 到第 N 个 token，看不到自己还没写出来的未来内容。

而 DiffusionGemma 的 256 个 token 同时生成，每个 token 都能看到画布上所有其他 token，前后文同时可见。

这就带来了一个自回归模型很难做到的能力——实时自我纠错。

模型边生成边评估整段文字的一致性，发现不对立刻修正，不用等全写完再回头改。

这里谷歌举了个直观例子：数独。

数独本质是 " 后面的数影响前面的数 "，自回归模型由于只能往前看，所以做起来极痛苦。

但 DiffusionGemma 微调后成功率从 0% 飙到 80%。

所以，如果未来接触到代码补全、行内编辑、复杂 markdown 格式化……这些 " 需要前后文同时协调 " 的场景，扩散模型无疑更有结构性优势。

谷歌 CEO 皮猜：DiffusionGemma 是一匹 " 赛马 "

不过这也并不是说扩散模型就千好万好。

其最大局限在图像生成领域也已得到验证，那就是速度和质量的平衡——

去噪步数越少速度越快，但质量越差；步数越多质量越好，但速度优势也就越小。

质量方面，和同参数量的 Gemma 4 26B A4B 相比，DiffusionGemma 在多项基准上确实存在差距。

谷歌也很坦诚，生产环境推荐标准 Gemma 4，DiffusionGemma 面向的是速度敏感的本地交互场景。

所以，或许正如谷歌 CEO 皮猜所言，DiffusionGemma 目前更像一匹 " 赛马 " ——

先把速度提起来。

它目前只是谷歌对下一代模型形态的一次实验：

如果不再执着于一个 token 一个 token 往外生成，而是让模型充分利用现代 GPU 的并行算力，大模型的速度上限究竟还能被推到多高？

而且说实话，谷歌也不是第一个尝试验证这条路线的人。

早在今年 2 月，初创公司 Inception Labs 就发布了扩散文本模型 Mercury 2，号称比 Claude、Gemini 快 5 到 10 倍，是业内第一个真正投产的扩散语言模型。

谷歌自己去年 I/O 上也展示过 Gemini Diffusion 实验，当时采样速度达到每秒 1479 token，但之后沉寂了一整年，外界一度猜测 " 跑不起来 "。

直到现在，DiffusionGemma 卷土重来，并且 NVIDIA 从 RTX 到 H100 全线给它护航——

4090 到 H100 到 DGX Spark 全覆盖，vLLM、MLX、Unsloth、NeMo 全部支持，llama.cpp 也在路上。

只能说，嘴上说着 " 实验性 "，身体却很诚实。

谷歌这次给 DiffusionGemma 配上的资源和生态支持，显然不是来做技术 Demo 的。

从模型到推理框架，再到硬件生态，DiffusionGemma 已经拿到了足够多的支持。

至于它最终能不能挑战自回归模型的主流地位，现在还没人知道。

但至少，谷歌把这条路真正开源了。

HuggingFace：

https://huggingface.co/unsloth/diffusiongemma-26B-A4B-it-GGUF

使用指南：

https://unsloth.ai/docs/models/diffusiongemma

参考链接：

[ 1 ] https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/

[ 2 ] https://x.com/googlegemma/status/2064741002204545467

[ 3 ] https://x.com/sundarpichai/status/2064744343743922189

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

专属 AI 产品从业者的实名社群，只聊 AI 产品最落地的真问题 扫码添加小助手，发送「姓名 + 公司 + 职位」申请入群～

进群后，你将直接获得：

最新最专业的 AI 产品信息及分析

不定期发放的热门产品内测码

内部专属内容与专业讨论

点亮星标

科技前沿进展每日见

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

Mythos 阴影里谷歌悄悄发模型，速度暴涨 4 倍

宙世代

一起剪

相关阅读

小米YU7全系配备三重冗余车门把手：极端场景仍可解锁开门

英伟达股价不能只靠AI，这项投资揭示了未来方向

华为昇腾950白皮书公布：自研144GB高速内存、4倍性能提升

SpaceX上市临近：一场造富狂欢，马斯克向散户兑现承诺

亚马逊：中国卖家AI使用率98%，AI正驱动跨境电商全球化

钉钉新任CEO陈宇森，什么来头？

AIVA，正在打造AI汽车产业组织新范式

夏天的阿莫迪，在打脸春天的阿莫迪

Arm：未来PC将分化为两大品类

淘宝京东拼多多抖音小红书被约谈！央视网：“百亿补贴”是资本制造的伪低价

WPS文档小程序接入微信Agent能力

定价1399元！七彩虹iGame B850I MINI OC V14主板上市：配备双PCIe 5.0 M.2接口

印度软件巨头TCS宣布与Anthropic合作 为5万名员工配备Claude

李楠质疑苹果压根儿搞不懂AI：连DeepSeek都练不出来 还有多少是苹果制造

从“肉身管理”到"数据巡厂”：一家服装制造企业的AI改造实验

最新评论

量子位

热门推荐

企业资讯

印度软件巨头TCS宣布与Anthropic合作为5万名员工配备Claude

李楠质疑苹果压根儿搞不懂AI：连DeepSeek都练不出来还有多少是苹果制造