Jeff Dean 最新访谈：未来开发者人均 50 个智能体，写需求成核心技能

谷歌首席AI科学家、传奇工程师Jeff Dean，在最新访谈中放出了一个炸裂预言：

未来每个工程师可能会各自管理50个智能体实习生，完成大量并行任务，而且沟通效率会比人更高效。

未来最重要的技能将会是"写清楚需求"，因为Agent的输出质量完全取决于你如何定义问题。

好家伙，那以后岂不是……写需求比写代码还重要？

Jeff Dean还揭秘了谷歌目前遵循的帕累托前沿策略，新模型的推出主要有两条路线：

一方面是高端前沿模型，用于深度推理、复杂数学问题等高难任务；

另一方面是高性价比模型，用于低延迟场景，比如更流畅的Agent式编程。

想必大家都知道了，Gemini 3 Flash能做到又快又智能，最大的秘诀就在于蒸馏。

Jeff Dean在这期访谈中亲口认证：通过蒸馏，小模型可以非常接近大模型性能。

他们让小模型在大量训练数据上多次迭代学习，同时利用大模型输出的logits信息，让小模型学到更细腻的行为。

这就是为什么Gemini能够做到"下一代Flash ≈ 上一代Pro，甚至更好"。并且他也透露，谷歌内部会持续推进这条路线。

另外，Jeff Dean非常相信"低延迟"的价值：他认为如果延迟降低20-50倍，用户体验会彻底改变。

他还指出，内部一开始就希望Gemini是个多模态模型，但多模态不只是文本、图像、视频、音频这些，让模型理解"非人类"的模态同样非常有用。

比如Waymo车辆的LIDAR传感器数据，或者机器人数据、医疗影像数据等等。未来可能有数百种模态。

△AI生成

在这期访谈中，你还可以了解到：

Jeff Dean早在几十年前就坚信规模化终将取胜，以及"更大的模型、更多的数据、更好的结果"这一信条，这一信条持续了15年；

LLM训练与推理不仅关心计算量，也关心数据搬运成本；对硬件优化、batch size、延迟、吞吐量的设计，都可以用能量消耗作为第一性原则衡量；

TPU和ML研究团队必须紧密互动、协同设计，硬件设计需预测未来2–6年的模型趋势；

Gemini早期资源太分散，Jeff Dean称"这是愚蠢的"；

Jeff Dean给出两个预测：未来真正"个性化"的模型会极其重要，以及低延迟会改变很多应用场景。

以下为本场访谈重点内容实录，围绕核心观点做了摘选整理，部分文字在不改变原意的基础上做了适度删改，enjoy！

蒸馏是Flash模型突破的关键

Shawn Wang：首先得说一句，恭喜你们占据了帕累托前沿。

（编者注：帕累托前沿描述的是多个目标之间权衡时的最优解集合。此处指谷歌既能推出高性能的前沿模型，又能推出低成本、低延迟的高性价比模型，在性能 vs 成本/延迟这两个维度上已经达到了最优权衡状态）

Jeff Dean：谢谢。能站在帕累托前沿当然是好事。

Shawn Wang：是的。我觉得你们做的不只是追求最强能力，还同时兼顾效率，真正"拥有"了帕累托前沿——既有顶级性能，也有成本与效率控制，还提供了完整的模型梯度供用户选择。

这里面有一部分来自你们的硬件工作，一部分来自模型设计，还有很多长期积累的"秘密武器"。看到这一切整合起来，确实令人印象深刻。

Jeff Dean：确实，这不是单一因素，而是从硬件到软件、从系统到模型的全栈协同。

所有这些结合在一起，才能既做出能力极强的大模型，也能通过软件技术把这些能力"压缩"到更小、更轻量、更低成本、更低延迟的模型里，同时仍然保持相当强的能力。

Alessio Fanelli：你们内部，会不会对帕累托前沿的"低端"也有很大压力？

新实验室往往拼命往性能最前沿冲，因为需要融资。但你们有数十亿用户。早年做CPU规划时，如果每个用户每天多用三分钟语音模型，算下来都需要翻倍的算力。

现在在谷歌内部是怎么权衡的？如何在"追求前沿"和"必须规模化部署"之间做决策？

Jeff Dean：我们始终希望拥有站在前沿、甚至推动前沿的模型，因为只有在那里，你才能看到"新能力"的诞生——那些上一代模型不具备的能力。

但我们也清楚，这类模型通常更慢、更贵。很多广泛场景其实更需要低延迟、低成本的模型。

所以我们的策略是同时做两件事：一方面有高端前沿模型，用于深度推理、复杂数学问题等高难任务；

另一方面有高性价比模型，用于低延迟场景，比如更流畅的 Agent 式编程。两者都重要。

而且通过蒸馏技术，我们可以把前沿模型的能力迁移到小模型上。因此这不是"二选一"，反而是相辅相成——没有前沿模型，也很难得到高质量的小模型。

Alessio Fanelli：蒸馏这个方法你和Geoffrey Hinton早在 2014 年就提出了。

Jeff Dean：别忘了Oriol Vinyals。

Alessio Fanelli：这么多年过去，你怎么看待这些技术理念的"周期性"？比如稀疏模型。很多想法在当时未必看起来重要，但后来影响巨大。你们如何判断哪些值得在下一代模型中重新审视？

Jeff Dean：当年做蒸馏，动机其实来自图像任务。

我们有一个 3 亿张图片的数据集。如果针对不同类别训练"专家模型"——比如一个专门识别哺乳动物，一个专门识别室内场景——然后做成 50 个模型的集成，效果会很好。但显然不可能线上部署50个模型。

于是我们想：能否把这些专家模型"压缩"进一个更小、可部署的模型里？这就是蒸馏的由来。今天其实逻辑类似，只不过我们不是蒸馏50个模型，而是从一个极大规模模型蒸馏到小模型。

Shawn Wang：蒸馏和强化学习革命之间是不是也有关联？比如RL会在某些能力分布上"打尖"，但可能牺牲其他区域。

如果能通过蒸馏把能力重新平衡回来，实现"能力合并而不退化"，那是不是理想状态？

Jeff Dean：蒸馏的关键优势之一，是小模型可以在大量训练数据上多次迭代学习，同时利用大模型输出的 logits 信息，而不仅是硬标签。这能引导小模型学到更细腻的行为。

实践中我们确实发现，小模型可以非常接近大模型性能。

这也是为什么在多个Gemini世代中，我们都能做到"下一代Flash ≈ 上一代Pro，甚至更好"。这是一条我们会持续推进的路径。

Shawn Wang：那Ultra呢？是不是内部有一个"母体模型"一直在蒸馏？

Jeff Dean：我们有很多不同规模和用途的模型，有些不对外发布，有些是Pro级别。蒸馏可以来自不同来源。另外，推理阶段扩展也是提升能力的重要方式。

Shawn Wang：Flash的经济性确实带来了规模优势。听说已经50万亿tokens？

Jeff Dean：市场份额方面，希望还在增长。

Shawn Wang：Flash现在几乎无处不在——Gmail、YouTube、搜索AI模式。

Jeff Dean：是的。Flash的优势不仅是便宜，还有低延迟。而延迟非常关键。

未来模型会被要求完成更复杂任务，比如写整个软件包，而不仅是一段循环代码。这会生成大量token，因此低延迟系统至关重要。

Flash 是一个方向。硬件层面，比TPU芯片之间的高性能互联，也对长上下文attention或稀疏专家模型的可部署性至关重要。

Alessio Fanelli：那你们会不会担心某种"饱和"？比如两代之后Flash就能覆盖大多数需求，那还有动力继续推Pro前沿吗？

Jeff Dean：如果人类提问的分布是静态的，那可能会。但事实是，模型能力越强，人们问的问题越复杂。

一年前我只会让模型做简单coding，现在我会让它做复杂系统分析。用户需求本身在进化。前沿模型推动能力边界，同时也让我们看到瓶颈在哪里，从而改进下一代。

Alessio Fanelli：内部还依赖公开benchmark吗？

Jeff Dean：公开benchmark有价值，但生命周期有限。理想benchmark初始分数应在 10%–30%，然后通过改进提升到80%–90%。

超过95%就意义不大了，要么能力已掌握，要么可能出现数据泄露。我们有很多内部保留测试集，专门评估未出现在训练数据中的能力。然后分析是数据问题、架构问题还是能力缺口。

Shawn Wang：有没有某个benchmark直接促成了架构创新？

Jeff Dean：长上下文能力就是一个例子。Gemini 1.5开始我们明显推进了长上下文。像"needle in a haystack"这种单针测试现在基本饱和了。真正有意义的是更复杂的多针检索或真实任务，比如从数千页文本或数小时视频中提取信息。

Shawn Wang：但会不会有"过拟合 benchmark"的风险？像Jason Wei说的，那是一种inductive bias，可能短期有效，长期未必可扩展。

Jeff Dean：我们更关注的是"需要什么能力"，而不是某个具体解法。长上下文显然有用，但当前仍然太短。

理想状态是"能在回答问题时访问整个互联网"。但现有二次复杂度attention不可能扩展到万亿token。我们需要算法与系统层面的突破，创造"可访问万亿 token 的幻觉"。

如果能做到，就可以访问整个互联网、YouTube视频像素、个人邮件、照片、文档（在用户授权下）。那将极具价值。关键在于：如何在算法和系统层面实现这种规模跃迁。

Gemini一开始就强调多模态

Shawn Wang：顺便说一句，我之前算过一笔账——如果一个人每天连续讲八个小时、天天讲，最多也就生成大概10万个token，这其实完全在可承受范围内。

Jeff Dean：对，不过如果你再进一步说——好，我想要理解人们上传到视频里的所有内容，那情况就不一样了。

Shawn Wang：而且经典的例子是，当你从语言扩展到其他模态，比如蛋白质之类的信息，那信息密度就高得多了。

Jeff Dean：没错。我觉得像Gemini这样的模型之所以强调多模态，是因为我们从一开始就希望它是多模态的。

很多人理解的多模态是文本、图像、视频、音频这些"人类感知"的模态。但我认为，让模型理解"非人类"的模态同样非常有用。

比如来自Waymo车辆的LIDAR传感器数据，或者机器人数据、医疗影像数据，比如X光、MRI，以及基因组信息。

世界上可能有数百种不同的数据模态，我们希望模型至少能接触到这些模态，知道它们是有意义的。

即使你没有在所有LIDAR或MRI数据上大规模训练，仅仅少量纳入，也会非常有价值，因为这会"暗示"模型：这些都是现实世界中的重要信号。

Shawn Wang：那你是否认为存在某种"王者模态"？比如视觉可以在像素层面编码文本；有篇DeepSeq CR的论文就是这么做的。

视觉还能通过频谱图来表示音频。所以会不会视觉才是"统治一切"的模态？

Jeff Dean：视觉和运动（比如视频而不是静态图像）确实非常重要。

进化在 23 次独立的过程中演化出了"眼睛"，这本身就说明视觉对理解世界是多么关键。

而我们希望这些模型也是在"感知世界"。所以关键在于：它们是否能解释所看到或关注到的内容，并利用这些信息帮助我们完成任务。

Shawn Wang：说到视频，我得夸一句，Gemini目前可能还是唯一一个原生支持视频理解的模型。我经常用它分析YouTube。

Jeff Dean：是的，其实很多人并不了解Gemini到底能做什么。

我有个例子：一个YouTube视频合集，包含过去20年18个经典体育瞬间，比如Michael Jordan在总决赛最后时刻的跳投、一些足球进球等等。

你可以直接把视频给模型，说"请帮我做一个表格，列出每个事件是什么、发生日期以及简要描述。"

结果你会得到一个18行的结构化表格——这其实是把视频转成类似SQL表结构的信息。很多人并不会把"视频理解"联想到这种能力。

谷歌搜索的演变：从分片到AI搜索

Alessio Fanelli：在谷歌内部有没有讨论过"照料整个互联网"这个问题？谷歌本身就是因为人类无法浏览整个互联网而存在的，通过排序系统帮人筛选。

对于LLM来说，排序逻辑是不是不同？人类可能只看前5个链接，但LLM是否应该关注20个高度相关的链接？你们内部是怎么思考这种"更广泛搜索模式"的？

Jeff Dean：其实在大语言模型出现之前，我们的排序系统就是这样分层处理的。

首先从一个巨大的索引中筛出相关子集，可能从数十亿网页缩小到3万份候选文档，然后逐层使用更复杂的算法和信号精炼，最终展示前10个结果。LLM系统本质上也类似。

你可以"关注"万亿级 token，但你需要先筛选出 3 万份候选文档（也许对应3000万token），然后进一步缩减到 117份真正关键的文档，再由最强的模型处理这117份。

这样你就实现了一种"仿佛浏览了万亿token"的效果，就像谷歌搜索给人的感觉一样——虽然你在搜索整个互联网，但实际上只处理了一小部分最相关的内容。

Shawn Wang：很多人不了解LLM在高流量系统里的渗透程度。比如 BERT 很早就进入谷歌搜索系统，提升了质量。

Jeff Dean：是的，引入LLM表示方式之后，我们可以跳出"必须精确匹配用户输入词语"的限制，而更关注页面的主题是否与查询相关。

Shawn Wang：其实在LLM之前，你们就已经在"软化查询词"了吧？

Jeff Dean：没错。我在2009年的一个会议上做过一次回顾演讲，讲1999到2004年搜索系统经历的五六次架构重构。

2001年是一个关键点。当时我们为了扩展规模，把索引分片，比如60个shard，每个shard多个副本。

当副本数量足够多时，我们意识到——整个索引其实可以全部放进内存！一旦索引在内存中，你就可以对用户原本三四个词的查询，扩展出50个相关词，比如restaurant、restaurants、cafe、bistro等等。

这是2001年的事情，远早于LLM，但本质是一样的——从"精确词匹配"走向"语义理解"。

Alessio Fanelli：在系统设计上，你有什么原则？当规模以倍数级增长时，你怎么思考？

Jeff Dean：首先要弄清楚最重要的设计参数：每秒查询数、索引规模、每个文档的数据量等等。

好的系统应该能承受5到10倍的增长，但如果增长到100倍，可能就需要完全不同的架构。比如从磁盘索引转为内存索引——这在流量足够大时才合理。

设计前我喜欢在脑子里推演各种可能性，而不是一开始就写代码。

Shawn Wang：更新频率是不是变化最大的参数？

Jeff Dean：对。最早我们一个月更新一次索引，后来可以做到单页亚分钟更新。

因为新闻类查询需要实时性。即便某页面更新概率低，但如果它很重要，也值得频繁抓取。这背后有一整套系统在判断抓取频率与页面重要性。

用能量来衡量数据搬运成本

Shawn Wang：说到延迟，我必须提一下你的经典文章《每个程序员都应该知道的延迟数字》。

（编者注：这是Jeff Dean在谷歌早期写的一篇经典内部文章，后来被公开分享，主要目的是帮助程序员理解计算机系统中各种操作的延迟成本，从而在设计软件和系统时能做出合理的权衡）

Jeff Dean：那里面其实列了大概八到十种关键指标，比如一次缓存未命中要多久、一次分支预测失败要多久、一次主存访问要多久、从美国往荷兰发一个数据包要多久之类的。

Shawn Wang：顺便问一句，为什么是荷兰？是因为Chrome吗？

Jeff Dean：不是，是因为我们当时在荷兰有数据中心。其实关键点在于，你要能做"信封背面的估算"。这些延迟数字就是原材料。

比如你要设计一个图片搜索系统，结果页要生成缩略图——你可以选择提前预计算缩略图，也可以实时从大图生成。那带宽要多少？需要多少次磁盘寻址？你完全可以在30秒到1分钟内，用这些基础数字做一个脑内推演。

随着你使用更高层的库写软件，你也应该培养类似的直觉——比如某种数据结构的查找大概要多久。

Shawn Wang：如果现在更新这份"延迟数字"清单，你会加什么？

Jeff Dean：我觉得现在特别值得思考的是，在模型训练或推理时，你在做的计算到底意味着什么。

一个很好的视角是：你需要从内存中搬运多少"状态"？是片上SRAM？是加速器上的HBM？是DRAM？还是通过网络传输？

然后问一个问题——这些数据搬运的成本，相对于一次矩阵乘法里的乘法操作，贵多少？其实乘法本身的能耗非常低，根据精度不同，大概是小于1皮焦耳（picojoule）。

Shawn Wang：哦，你是用能量来衡量的？

Jeff Dean：对，最终一切都归结为能量效率。

比如，从芯片另一侧的SRAM搬数据，甚至都没出芯片——可能就要1000皮焦耳。于是你就明白了，为什么加速器需要"batch"。

如果你把一个模型参数从SRAM搬到乘法单元，花了1000皮焦耳，那你最好多次使用它。假设batch size是 256，那这笔成本还能摊薄；但如果batch是 1，那就太亏了。

Shawn Wang：对，因为你花了1000皮焦耳，只做了1皮焦耳的乘法。

Jeff Dean：没错。所以从能量角度看，batching 是非常自然的选择。理想情况下我们当然希望batch size是1，因为延迟最低。但能量效率和计算效率会非常糟糕。

Shawn Wang：我还是第一次听到用能量分析batching的解释。

Jeff Dean：这其实就是大家做batching的原因。

TPU和ML必须做协同设计

Shawn Wang：那在硬件上有没有类似当年"把索引全部放进内存"那样的转折？比如NVIDIA在SRAM上的激进下注。你们在TPU设计时是否也早就预见到这种趋势？

Jeff Dean：TPU采用的是规则的2D或3D mesh 结构，每个芯片都有HBM。对于某些模型推理任务，从HBM读数据的延迟和成本比从片上SRAM高得多。

所以如果模型够小，你可以做模型并行，把它分布在16或64个芯片上，只要全部参数都能放进SRAM，就能同时提升吞吐和延迟。这其实是一个很自然的技术选择。

Alessio Fanelli：在TPU设计中，你们如何决定优化方向？比如能不能把那1000皮焦耳降到50？是否值得为此设计一颗新芯片？但ML变化这么快，做硬件会不会太冒险？

Jeff Dean：我们在TPU架构团队和ML研究团队之间有很多互动，因为必须做"协同设计"。

问题是——你今天开始设计一颗芯片，可能两年后才部署到数据中心，然后还要用三到五年。也就是说，你要预测两到六年后人们会运行什么样的ML计算，而这个领域变化极快。

所以如果研究团队对未来两三年内可能成功的方法有洞察，我们就能在"TPU N+2"版本里加入对应的硬件特性。有时可以加入一些"投机性功能"，占用很小的芯片面积，但如果成功可能带来10倍提升；失败了损失也不大。

但有些改动代价很大，就必须通过大量ML实验来验证方向。

Alessio Fanelli：有没有反过来的情况？因为芯片设计已经定了，所以模型架构不得不调整？

Jeff Dean：当然会。模型架构有时会为了适配现有硬件而调整。比如未来一代支持更低精度，你可能提前为那个精度训练模型，即便当前代还不支持。

Shawn Wang：那精度还能降多低？有人说三值化（ternary）都可以。

Jeff Dean：我个人很喜欢低精度，因为每减少一位比特，就减少搬运时的能量消耗。很多成功做法是：权重本身用极低比特表示，但给一组权重共享一个缩放因子。

Shawn Wang：低精度加缩放因子？挺有意思的。说到精度，我们最终是采样生成的，还会加随机数——那这么精细的计算是不是有点讽刺？

Jeff Dean：确实有很多趋势值得关注。比如能量驱动模型、扩散模型（不再顺序解码 token）、投机解码。

比如一次预测8个token，然后接受其中5或6个，相当于把有效batch提升了5倍，大幅摊薄参数搬运成本。从能量、延迟、吞吐的角度看问题，会自然引导你找到更优解。

Shawn Wang：还有模拟计算这种更激进的方向呢？

Jeff Dean：模拟计算很有意思，理论上功耗低。但现实中你往往要和数字系统接口，做数模、模数转换，这会损耗掉不少能效优势。

不过我认为，在现有数字架构下，我们在能效上还有巨大的提升空间。

几个新的研究角度

Alessio Fanelli：从研究角度看，还有哪些方向你觉得特别值得探索？

Jeff Dean：一个大问题是如何让模型更可靠，能完成更长、更复杂、包含大量子任务的工作。也许一个模型调用其他模型作为工具，协作完成更大规模任务。

还有一个开放问题是：如何把强化学习扩展到"不可验证"的领域。现在数学和编程的进步，很大程度上来自可验证奖励。如果我们能在不可验证领域也实现类似突破，模型能力会有很大提升。

Alessio Fanelli：比如Deep Research或AI Mode，其实也是某种信息检索。是不是"检索"本身就是可验证的部分？

Jeff Dean：可以用另一个模型来评估第一个模型的结果，比如判断检索结果是否相关，或者从2000条结果中打分选出最相关的50条。有时甚至可以用同一个模型，只是通过不同提示词，让它充当"批评者"。

Shawn Wang：感觉我们好像做完了"简单的部分"，接下来全是硬骨头。但每年都这么觉得。

Jeff Dean：这个领域的好处是，有很多聪明人都在想办法解决这些问题。

两年前，我们还在为GSM8K这种"小明有两只兔子又买三只"的题目发愁。现在模型已经能做IMO和Erds水平的数学推理了，而且是纯语言形式完成。这在一年半内是惊人的跃迁。

对其他领域，我们也希望实现类似的飞跃。虽然有些方向还看不清路径，但研究本身就是不断尝试、验证、推进的过程，这正是它迷人的地方。

Shawn Wang：比如说，自动生成YouTube缩略图，这就非常有用了。那就是AGI了，我们真的需要它。

Shawn Wang：对内容创作者来说，那绝对是。

Jeff Dean：我不是YouTube创作者，所以我个人没那么在意这个问题，不过我知道很多人确实很在意。

统一模型时代已经到来

Shawn Wang：说回IMO，我到现在都还没消化一件事：一年前我们还有AlphaProof、AlphaGeometry这些专用系统，结果今年直接说"算了，全丢给 Gemini"。

你怎么看这种从"符号系统 + 专用模型"到"全LLM一统天下"的转变？

Jeff Dean：这对我来说其实挺自然的。人类确实在操作符号，但我们的大脑里未必真的是离散的符号系统。更可能是某种分布式的神经表示——大量神经元的激活模式。

当我们看到某些东西时，激活特定模式，从而进行推理、规划、链式思考，甚至回滚再尝试其他路径。

从这个角度看，用神经网络来模拟这种过程是合理的。我一直觉得，把完全独立的离散符号系统和神经模型硬性分开，其实不太有道理。

Shawn Wang：也许对你来说很明显，但对我一年前来说并不明显。

Jeff Dean：我觉得，从"把问题翻译成Lean再用专用几何模型求解"，到第二年直接用一个统一的大模型（基本就是生产版模型，只是给了更多推理预算），这其实说明通用模型能力的巨大提升。你已经不再需要那些专用系统了。

这和2013到2016年机器学习的发展很像——那时每个任务都要训练一个独立模型：街道标志识别一个模型，语音识别一个模型。

现在，统一模型时代已经到来。问题变成：它们对从未见过的新任务的泛化能力如何？而答案是——越来越好。

Shawn Wang：而且甚至不需要领域专家。我采访过Ete，他说自己甚至不知道IMO在哪举行、规则是什么，只是训练模型。这种"通用ML技能 + 数据 + 算力"就能解决各种任务，某种程度上像是"苦涩的教训"。

（编者注：Ete是指爱德华·格列芬斯特，一位Google DeepMind的研究科学家，他参与过多项与推理、语言模型相关的研究；

"苦涩教训"是"强化学习之父"理查德·萨顿提出的理念：研究者总想把人类知识编入AI，短期有效但长期看，依靠大规模算力和通用算法的方法最终会胜出）

Jeff Dean：在大多数情况下，通用模型会胜出。

Shawn Wang：但这里有个疑问：模型容量是有限的，参数本质上只能容纳有限的比特。比如 Gemma 这种小模型，很多人希望本地开源模型，但它们会记住一些其实没必要记住的知识。

大模型可以包罗万象，但小模型容量有限。我们能否把"知识"和"推理能力"分离？

Jeff Dean：理想情况下，模型应该把宝贵的参数空间更多用于推理能力，而不是记住那些可以检索到的冷门事实。比如某个偏僻小桥的长度，没必要死记硬背。但模型也不能完全脱离世界知识。

比如知道Golden Gate Bridge大概多长，有助于建立尺度感。所以需要一定的常识。模型越大，能容纳的知识越多。但我认为，把检索和推理结合起来——尤其是多阶段检索 + 推理——会让模型显得更强大。

Shawn Wang：比如"个人版Gemini"。

Jeff Dean：对，我们不太可能把我的私人邮件数据直接训练进Gemini。更合理的是，用统一模型，再让它通过工具检索我的邮件、照片等，然后对这些结果进行推理，并进行多轮交互。

Alessio Fanelli：那你怎么看垂直模型？比如"医疗 LLM""法律 LLM"这种。

Jeff Dean：垂直模型是有意义的。它们应该基于一个强大的基础模型，然后在特定领域数据上进一步强化。

比如机器人领域，我们不会在基础Gemini中塞进所有机器人数据，因为我们需要平衡能力。但如果你想做一个顶级机器人模型，就应该在基础模型上再加大量机器人数据训练。

代价可能是多语言能力下降，但机器人能力更强。我们始终在做数据分布的权衡。

理想情况是模块化：一个拥有200种语言能力的模块、一个顶级机器人模块、一个顶级医疗模块，可以组合调用。比如遇到医疗问题，就调用医疗模块增强基础模型。

Shawn Wang：就像"可安装知识包"。

Jeff Dean：对。有些可以通过检索实现，有些可能需要预训练，比如用上千亿token的医疗数据。

Shawn Wang：说到语言，你以前提到过一个例子：把低资源语言直接放进上下文，模型就能学。

Jeff Dean：对，比如Kalaman语，全世界只有大约 120 人使用，而且没有书面文本。对于像索马里语或阿姆哈拉语这样的语言，世界上其实有不少文本。

我们在 Gemini 训练中可能只用了其中一部分。如果增加更多数据，这些语言的能力就会提升。

Shawn Wang：我对语言学也很感兴趣。如果我是语言学家，拿到这些模型，我会问一些根本问题。比如萨丕尔-沃尔夫假说：语言是否影响思维？

还有所谓"柏拉图式表示"——图像里的"杯子"和文本里的"cup"最终在模型里映射到同一向量空间。理论上这应该跨语言成立，但有些语言有独特概念，英语没有，这些差异其实很有意思。

Jeff Dean：我之前做过一个叫DeViSE的模型，把语言模型的词向量和图像模型（类似 ImageNet 训练的）融合在一起。

结果发现，如果给它一个训练集中没有类别的图像，它也常常能给出正确标签。

比如图像模型训练时见过telescope和binoculars，但没见过microscope。当给它显微镜图片时，它却能正确生成"microscope"这个标签，尽管从未见过带这个标签的图像。

Shawn Wang：这很酷。

Jeff Dean：确实挺有意思。

Gemini早期资源太分散是"愚蠢"的

Shawn Wang：最后一个问题，你希望别人多问你什么？我们聊了硬件、模型、研究。

Jeff Dean：有件事挺有趣。我1990年本科毕业时，做的毕业论文就是并行神经网络训练。当时我就觉得神经网络是正确抽象，只是算力远远不够。

系里的32处理器并行机只能训练稍微有点意思的模型，但远不足以解决现实问题。直到2008、2009年，随着摩尔定律和更大的数据集，神经网络才真正开始解决语音、视觉、语言等问题。

我2011年底在谷歌重新投入神经网络研究时，核心想法就是：我们应该用大规模并行计算把神经网络规模推上去。

我还复活了本科论文里的模型并行和数据并行思想——那时候我用的名字不一样，但本质就是这两种并行方式。历史有时候会兜个圈再回来。

Shawn Wang：这个是公开的吗？我们能去网上查到吗？

Jeff Dean：可以，在网上都能找到。

不过说到更宏观一点的事情，我觉得过去十五年真正重要的一点，是把各种技术结合起来，并且持续推动Scaling。

这不仅仅是算法问题，还包括硬件的进步，比如构建像TPU这样的专用硬件；也包括软件层面的抽象能力，让研究者和工程师能够更好地向计算机表达自己的想法。

Shawn Wang：关于后来对算力资源分配的反思——有人提到所谓的"算力配额市场"。

David在OpenAI做过VP of Engineering，后来又去了Google。他的观点是，OpenAI 当时愿意"押上全部筹码"去做一件事，而 Google 更民主化，每个人都有自己的算力配额。

（编者注：此处指David Luan，是 AI 领域知名的技术专家，曾任职于Google Brain和OpenAI，后来创办了 AI 初创公司Adept）

如果你真的相信 Scaling 是关键，那这其实是一个全组织层面的战略选择。你当时会认同这种说法吗？还是有不同的复盘结论？

Jeff Dean：我在一定程度上是同意的。事实上，我当时还写过一页memo，说我们把资源拆分得太零散是"愚蠢"的。

当时的情况是这样的：Google Research里有团队在做大语言模型，Brain团队里也在做；同时其他团队在做多模态模型；而当时的 DeepMind也在做像Chinchilla、Flamingo这样的模型。

问题在于，我们不仅把算力分散在多个方向上，还把最优秀的人才分散开了。我当时的观点是：这没有必要。为什么不整合起来，做一个统一的、从一开始就是多模态的、在各方面都很强的单一模型？

这就是Gemini项目的起点。

Shawn Wang：所以那份一页纸的memo成功了？另外，Gemini这个名字也是你起的吗？

Jeff Dean：是的，是我起的。

当时也有别的备选名字，但我觉得"Gemini"挺好。因为这两个组织像是"双胞胎"一样的存在，现在合并在一起。另外，NASA 早期的Gemini项目也是通往Apollo计划的重要一步。这个隐喻也很贴切——双子合一。

未来人均50个智能体实习生

Alessio Fanelli：我很好奇你现在是怎么用AI来写代码的。你一直是工程能力极强的人。我看到你说过，结对编程时要找到思维方式互补的人。

那现在有了coding agents，你会如何"塑造"一个与自己思维方式匹配的智能体？你如何评价现在这些工具？未来应该往哪个方向发展？

Jeff Dean：首先，编程工具相比一两年前已经有了巨大进步。现在你可以把更复杂的任务交给它们。

一个很有意思的点是：你和模型互动的方式，会反过来决定它如何与你合作。你可以让它写测试、帮你做性能优化brainstorming，也可以让它完全独立去完成一个模块。

不同任务适合不同交互模式。有些任务需要频繁互动；有些你可以清晰定义需求，然后让它独立完成。

我认为未来会有越来越多独立运行的软件智能体替你做事。关键问题是：人机交互模型该怎么设计？什么时候它应该打断你？什么时候独立推进？

这个问题还没有最终答案。而且随着模型能力提升，这些交互决策也会改变。如果你有50个实习生，你会怎么管理？也许你真的会想要50个——前提是他们足够优秀。

Shawn Wang：那管理成本也很高。

Jeff Dean：是的。但你可能会把他们分成小组，而不是直接管理 50 个人。

同样的，如果一个人管理50个虚拟智能体，而不是50个真人工程师，也许组织结构和沟通带宽会更高效。

五个工程师各自管理50个智能体，彼此之间可能反而有更高带宽的交流，而不是每人都要协调一个50人团队。

Alessio Fanelli：那你觉得这种模式会不会让人变得更孤立？比如你想找别人一起"pair programming"，但现在已经有50个智能体并行完成了大量工作，要把上下文讲清楚反而更难。

Jeff Dean：也许。但传统的软件组织其实也是高度分工的。50个人在不同模块上工作，本来也不会高频互动。

如果是5个人各自管理50个智能体，反而可能在这5人之间形成更高效的协作结构。具体会怎么演化，我也不确定。

"写好需求"将会是核心技能

Alessio Fanelli：那你的工作节奏会怎么改变？是不是要花更多时间在设计和specification上？

Jeff Dean：我觉得这是个非常关键的变化。过去大家都被教导要写清晰的specification，但说实话，没有多少人真正重视"英文规格说明"这个产物。

但如果你是让一个agent为你写代码，你必须把specification写得非常清楚。因为输出质量完全取决于你如何定义问题。如果你没写清楚某个corner case，没强调性能要求，模型就很可能忽略这些。

因此，我认为未来一个重要能力是：用非常精确、无歧义的方式表达你想要什么。这不仅对软件工程重要，对任何复杂任务都是重要能力。

能够"清晰表达需求"，会成为一种核心技能。

Shawn Wang：我常开的一个玩笑是：高级的executive communication，某种程度上已经接近"魔法"了——就像写内部备忘录一样，你必须极其谨慎地权衡措辞。我觉得现在做提示工程其实也越来越像这种沟通艺术。
而且我认为"多模态"非常重要。比如Google当年推出的一些模型，一开始就强调强多模态能力，包括视频。这其实是给模型最高带宽的一种输入方式，是一种极其强大的沟通手段。
Alessio Fanelli：那你怎么处理自己脑子里那些经验性的知识？比如你对性能优化有很强的"直觉感"，知道哪些地方可能有提升空间。
现在是不是更有价值把这些通用经验系统性写下来，作为可以检索的资料喂给模型？
比如边界情况就是个好例子——以前你脑子里自然会想到某些特定场景，现在是不是每次都得明确写出来？你会建议大家花更多时间写这些"通用指南"吗？
Jeff Dean：我确实认为，高质量的软件工程指南会变得更重要。因为它们既可以作为模型的输入上下文，也可以被其他工程师阅读，从而帮助他们写出更清晰的prompt。
未必需要为每个具体问题都写一份专门文档，但如果你有一些通用指南，然后把它们放进 coding agent 的上下文中，那会非常有帮助。
举个例子，在分布式系统里，你可以列出常见故障类型，以及对应的处理技术。比如Paxos这样的复制协议，或者向两个节点发送请求、只需一个返回即可容错的策略。
如果你写一份包含 20 种类似技术的简明说明，那大概率能帮助coding agent构建出更可靠、更健壮的分布式系统。
模型的"个性化"和低延迟会极其重要
Shawn Wang：回到prompt和迭代这个话题。我一直想做一个A/B实验：
是三次"快速但能力一般"的模型调用、每次都有人类校准效果更好？还是一次写一个非常长、非常详尽的prompt，然后让一个很强的模型一次完成更好？
很多时候性能不佳，是因为你没写清楚需求，而不是模型不行。模型其实可以生成10种合理结果，只是你想要其中1种。
Jeff Dean：对，本质上是"欠规格化"。如果问题没被清晰定义，模型只能猜。而多轮快速交互，往往足够逼近你真正想要的结果。
我个人非常相信"低延迟"的价值。低延迟交互会让系统使用体验变得愉悦得多。如果响应慢10倍或20倍，体验完全不同。
未来我们会看到模型和底层软硬件系统带来20倍甚至50倍的延迟下降。这对那些需要在每次交互之间完成大量内部计算的系统至关重要。
Shawn Wang：但另一方面，也有像DeepThink这种强调深度推理、但延迟较高的模型。
Jeff Dean：如果成本和延迟不是问题，你当然会一直用DeepThink。
假设硬件提升20倍延迟降低，那你自然希望模型具备更强推理能力。但有趣的是，当硬件变快后，你往往又会设计出更复杂的模型，再次把时间用满。
Shawn Wang：帕累托前沿总是在往上爬。最后问个预测问题。有没有你觉得现在还不满意、但很快会实现的能力？
Jeff Dean：我给两个预测。
第一，真正"个性化"的模型会极其重要。一个了解你、掌握你所有状态、并且可以在你授权范围内检索你全部历史信息的模型——你看过的邮件、照片、视频——会比通用模型强大得多。
第二，更专用化的硬件会让模型延迟大幅下降，同时能力提升、成本下降。这会改变很多应用场景。
Shawn Wang：大家常用"每秒tokens数"来衡量速度。比如现在100 tokens/s，如果能到1000有意义吗？那10000呢？
Jeff Dean：当然有意义。
更高的tokens/s意味着你可以做更多并行rollout，可以生成更多代码，可以在生成背后做大量思维链推理验证。10,000 tokens/s 会非常强大。
Shawn Wang：到那个速度，你都不会读代码了。
Jeff Dean：未必。也许最终代码只有1000 tokens，但背后用了9000 tokens的推理。这样生成的代码，反而更值得阅读。
参考链接：
https://www.youtube.com/watch?v=F_1oDPWxpFQ
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法！
—完—
今天，你养虾了吗？
欢迎加入【龙虾养成讨论组】，一起交流养虾经验！扫码添加小助手加入社群，记得备注【OPENCLAW】哦～
一键关注点亮星标
科技前沿进展每日见

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

Jeff Dean 最新访谈：未来开发者人均 50 个智能体，写需求成核心技能

宙世代

一起剪

相关阅读

订单暴增9018%！年轻人沉迷“奶奶的玩具”，有商家月入十万

复旦教授：千万别在洗澡时做人脸认证 摄像头覆盖区域都能看到

SpaceX星舰V3首飞推迟 NASA催月球着陆器开发进度

没看却有记录 腾讯视频被疑为《逐玉》刷数据 官方回应：不影响任何显示数据

中国商业航天迎来黄金期！今年多款新型火箭预计排队挑战回收

雷军官宣！小米17 Ultra徕卡版黑银色明日开售：配1英寸主摄

腾讯一天发布三款OpenClaw“龙虾”工具 可用微信“使唤”

甲骨文史上最大裁员：AI未取代人力 资金转向芯片、数据中心投资

QQ、微信双端接入“小龙虾”，腾讯撕开AI入口新战局？

苹果：MacBook Neo绝无任何设计妥协！

火星人发布了空间魔法师套系产品，这是厨电的「iPhone 时刻」吗？

咖啡业大洗牌，皮爷咖啡为何在华逆生长

抛出“五层蛋糕论”与“计算真空”：黄仁勋借势OpenClaw，布下千亿算力阳谋

利民U120EX REV.5散热器首发255元：升级LCP正反叶双风扇

当钱正在“老化”，如何抓住“老钱”？

最新评论

量子位

热门推荐

企业资讯

复旦教授：千万别在洗澡时做人脸认证摄像头覆盖区域都能看到

没看却有记录腾讯视频被疑为《逐玉》刷数据官方回应：不影响任何显示数据

腾讯一天发布三款OpenClaw“龙虾”工具可用微信“使唤”

甲骨文史上最大裁员：AI未取代人力资金转向芯片、数据中心投资