在全球AI实验室深陷"算力荒"的当下,谷歌正凭借超过十年的自研芯片积累,构筑起一道竞争对手难以复制的结构性护城河。
谷歌云CEO Thomas Kurian近日在接受专访时表示,即将公布的第八代TPU将拆分为专注大规模训练的v8T与推理优化的v8i两条独立产品线,单个训练系统可容纳两个Petabyte的内存。外部AI实验室对TPU的需求已"远超我们所能满足的上限",并以此作为成本竞争力的最直接佐证:"如果我们的成本贵得多,他们根本不会来找我们要TPU。"
芯片优势正在加速兑现为商业增长。Kurian披露,Gemini企业版Token处理量已从今年1月的每分钟100亿跃升至160亿,企业用户数环比增长40%。他同时向行业发出警告:在算力产能持续受限的市场环境下,没有自研芯片的玩家单位经济成本将"越来越贵";而依靠风险投资输血、无法以推理收入覆盖训练成本的商业模式,终将面临资金来源枯竭——"这个缺口越拉越大,你能找到的资金来源就会越来越少。"
Kurian将这一优势定性为贯穿未来十年的长期壁垒,并以"平台公司逻辑"回应外界对谷歌同时服务Anthropic等竞争对手的质疑:为对手提供底层算力与在模型层正面竞争并不矛盾,且恰因TPU同时服务内外部需求,谷歌在供应链谈判中能获得更有利的合同条款,进一步加深了这条结构性护城河。

Kurian将谷歌今日的算力优势,追溯至超过十一年前启动的TPU自研项目。他表示,谷歌早在多年前便预判AI浪潮的到来,并从能源多元化、土地储备、数据中心建造模式转型等多个维度提前布局,以确保不在物理资源层面受到制约。
在数据中心建设层面,谷歌已将传统建筑施工模式转向工厂预制化模式,以更大的粒度进行预组装和预测试,从而大幅压缩产能部署周期。Kurian表示,这些决策的累积效应,在技术栈各层形成了复利——从TensorFlow到JAX,再到XLA和Pathways,谷歌围绕TPU构建的完整编程栈,是当前系统效率的核心来源之一。
值得关注的是,TPU的应用场景已开始向AI之外延伸。Kurian提到,对冲基金Citadel已公开谈及如何将TPU用于资本市场的算法交易,美国能源部及高性能计算领域的客户也在采用这一方案。其逻辑在于:算法交易过去依赖数值计算,受制于摩尔定律放缓,而转向推理计算可带来显著的性能跃升。部分顶级金融机构已要求将TPU部署在靠近交易所的客户自有数据中心,谷歌正在探索这一新型商业模式。
第八代TPU拆分为推理与训练两条产品线,应对智能体时代需求
Kurian透露,即将发布的第八代TPU包含三款产品:面向大规模训练的v8T,以及混合用途的Ironwood。其中v8i主要针对推理场景优化,可在无需水冷的条件下运行,便于部署至更多地点以管理推理延迟。
在技术规格层面,Kurian介绍,v8T训练芯片在单个系统内可容纳两个Petabyte的内存,相当于美国国会图书馆全部数字化内容的约100倍。v8拥有9600块芯片互联,v8i则有1152块,全部运行在统一的光学Taurus网络上,具备极低的可预测延迟,内存到芯片的数据吞吐效率极高。
谷歌以"goodput"(有效吞吐量)作为核心衡量指标。Kurian表示,谷歌三四年前便预判能源供给将趋于紧张,因此将每瓦特算力的产出Token数作为优化重心,这一决策如今已成为众多客户选择TPU的重要原因。他明确表示,谷歌完全有信心凭借TPU为世界上最大规模的模型提供服务,且其分离式部署(disaggregated serving)技术栈对TPU的使用效率在所有模型提供商中最高。
对于业界关于预训练扩展放缓的讨论,Kurian给出了明确回应:"从芯片设计、系统设计或产能层面,我们都没有看到这种放缓。"
智能体时代重塑算力架构:存储瓶颈成下一个关键约束
在Kurian的框架中,AI应用正经历三个演进阶段:以搜索问答为核心的第一阶段、以多模态内容生成为特征的第二阶段,以及以智能体自主完成复杂任务为核心的第三阶段。他指出,智能体的兴起正在从根本上改变芯片和系统设计的优化方向。
智能体任务可能持续运行6至12小时,对KV缓存设计提出了全新要求,内存驻留成本的控制将直接决定推理服务的经济性。与此同时,推理场景需要在大量地点分散部署,这与训练可集中在少数超大规模地点完成的特性截然不同,v8i支持风冷运行正是对这一需求的直接回应。
在存储层面,谷歌即将推出两项新方案:其一是面向大规模训练的托管Lustre解决方案,吞吐量达每秒10太字节;其二是面向推理场景的超低延迟"Rapid Storage",吞吐量达每秒15太字节,可挂载于靠近推理芯片的位置。此外,谷歌还将推出新型网络架构Virgo,提供超大规模集群内的超低延迟高速互联。
Kurian指出,智能体普及的下一个重大瓶颈将出现在消费者侧——让虚拟机按需激活、停用,并高效处理本地存储读写,将是降低智能体使用成本、实现大众化普及的核心工程挑战。
平台逻辑下的商业模式:为竞争对手供给算力不影响自身竞争力
针对外界对谷歌同时为Anthropic提供TPU算力、却又在模型层面直接竞争这一矛盾的质疑,Kurian将其归结为平台公司的内在逻辑。他表示,谷歌的不同业务部门与市场参与者同时存在竞合关系,苹果已与谷歌签订模型合同同样属于这一逻辑的体现。
对于如何在内部算力需求与外部供给之间做出权衡,Kurian表示,分配决策由以Sundar Pichai为首的管理团队共同讨论做出,并强调"拥有自己的芯片和需求,远比没有自己的芯片要好得多"。谷歌不依赖外部芯片采购,因此无论如何分配,均能在自有知识产权基础上获得利润,这与纯粹转卖他人IP的商业模式有本质区别。
在对比英伟达的总拥有成本主张时,Kurian以客户反馈作为回应——"我们有很多客户说我们的总拥有成本是最低的",并重申大量外部AI实验室对TPU的需求已超出谷歌供给能力,视其为成本竞争力的最直接证明。
网络安全成AI军备竞赛新战场,谷歌推三层应对体系
Kurian对AI模型在网络安全领域的风险持高度警觉态度。他指出,无论如何限制闭源模型的扩散,开源模型必然会流入对手手中,且随时间推移持续进化。因此,核心问题在于:Anthropic认为Mythos过于危险而暂缓发布的那些漏洞检测能力,有多大比例可以被开源模型复现?
谷歌的应对策略分为三层:第一,借助Gemini提升漏洞检测速度,并推出能够辅助修复代码的新模型,因为漏洞被发现的速度已远超人工修复的速度;第二,引入"持续红队演练"智能体——第一个智能体持续发动攻击测试,第二个对漏洞进行优先级排序,第三个辅助完成修复;第三,与Wiz整合后,将持续检测能力融入云端安全体系,形成从发现到修复再到部署的闭环。
Kurian亦对"AI将取代软件工程师"的论断提出反驳。他表示,在模型能力提升带来大量安全漏洞的当下,恰恰是最需要大量软件工程师配合模型工作的时刻,行业容易在"不再需要任何人"的论断上矫枉过正,而现实往往相反。谷歌坚持代码同行评审制度,并正在探索引入"监督模型"以不同方式审查AI生成代码,以应对AI既生成代码又审查代码所带来的认知盲区风险。

主持人: 好的,Thomas,感谢您今天来接受我的采访。我们现在在谷歌云园区,非常感激您抽出时间。
Thomas Kurian: 感谢邀请。
主持人: 我非常期待这次对话,有很多问题想问您。
Thomas Kurian: 好的,尽管问。
主持人: 我最近一直在思考的第一个问题是关于TPU产能的。当你看看Anthropic和OpenAI这些前沿实验室,他们一直挂在嘴边的就是算力受限的问题。但反观谷歌,你们拥有完整的技术栈,有自研芯片,而且你们不仅在服务自己的推理需求,还在做训练、销售推理服务,同时还允许一些竞争对手在你们自己的芯片上构建产品,甚至还在直接销售芯片。你们是怎么做到有这么充足的产能的?而其他前沿实验室似乎永远都不够用?
Thomas Kurian: 你想想我们在全球范围内实际上变现了多大比例——在某些场景下,我们同时对算力和推理请求收费;在另一些场景下,我们提供的是算力,运行的是别人的模型,但底层芯片是我们的。这背后的部分原因,要追溯到很多年前我们所做的长期规划。当我们预见到这波AI浪潮到来时,我们从多个维度入手,确保自己不会在物理资源上受到制约。
我们多元化了能源来源,提前锁定了土地以便建设数据中心,改变了数据中心的建造方式——我们从传统的建筑施工模式转向了更多的工厂预制化模式,因为工厂制造永远比现场施工更快。我们还缩短了机器部署的周期。这些都是我们已经做到的事,也在产能上帮了我们很大的忙。
在芯片层面,我们一直与英伟达保持合作伙伴关系,但同时我们也一直致力于研发自己的芯片,而且已经做了——我想大概是第十一年还是第十二年了。第八代TPU将会在我们的发布活动上正式公布。
主持人: 是的,我们待会儿会聊到这个。
Thomas Kurian: 我们在这件事上已经积累了深厚的经验,一代又一代地做,一次又一次地交付这种优势。现在很有意思的是,我们不仅看到来自AI实验室的需求,还看到来自其他行业的需求。比如Citadel在资本市场领域就公开谈到了他们如何使用我们的TPU;美国能源部以及高性能计算领域的客户也在谈论这个。所以我们正在看到TPU变得越来越通用,不再局限于AI算法,而是成为更广泛的基础设施。
主持人: 那当你面对TPU这块大蛋糕,需要在各种不同的用途之间分配算力时,你是怎么比较和权衡的?如果你愿意分享具体数字当然很好,但哪怕是粗略对比一下——直接销售TPU、让Anthropic或OpenAI通过你们的基础设施运行推理、还是服务自己的Gemini模型——这几种模式相比较如何?
Thomas Kurian: 我们在这几者之间保持投入的平衡,而且无论哪种方式我们都能获得不错的利润,因为我们拥有自己的知识产权。我们不是单纯在分销别人的IP。我认为这一点帮助了我们,你也看到我们的营收和运营利润率都在持续提升。
我们还把TPU扩展到了新的场景,比如资本市场。我们发现一个非常有趣的现象:算法交易过去主要依赖数值计算,而这类计算主要运行在传统算力上,受摩尔定律的制约,每代之间的性能提升越来越慢。所以很多顶级机构已经发现,转向推理计算可以带来巨大的性能飞跃——与其用数值方法做计算,不如转向推理,就能享受推理性能提升所带来的红利。随着这些机构陆续加入,他们希望我们的机器能部署在更靠近交易所的地方,比如放在他们自己的数据中心里。所以我们已经开始把TPU引入部分核心客户自己的场地,这是一种略有不同的商业模式。
从宏观角度看,我认为多元化本身就能促进产品进步,因为你能从各个地方接收到需求反馈。商业化渠道的多元化也帮助我们实现增长。举个例子,当我们和供应链供应商谈判时,正因为我们使用这些芯片不仅仅是为了满足自身需求,还为市场提供服务,他们会说谷歌的需求量是一个更大的总盘子,所以我们能拿到更有利的合同条款。
主持人: 我想在这个点上再多停留一会儿。如果算力需求是无限的,哪怕只从研发角度来看,为什么不干脆把算力全部留给自己?更直白地说,如果AGI真的是所有AI实验室都在追求的终极目标,而且谁先到达、谁先规模化部署谁就赢,那么把产能全部留给自己、留给自己的模型,似乎才是最有利的选择。我的理解哪里有偏差?
Thomas Kurian: 你必须赚钱才能支撑这一切。谷歌确实赚了很多钱,但你必须持续产生现金流,而这是我们生成足够现金流的另一个杠杆。我们分配给外部的算力始终是在和自身需求及资本需求之间做平衡的。而且你知道,不管你是哪家实验室,风险投资是没办法无限期地支撑你的。随着算力成本不断上涨,如果你做的是亏本买卖——你亏钱,而且从推理服务等手段中赚到的钱不足以覆盖训练成本——这个缺口越拉越大,你能找到的资金来源就会越来越少。
主持人: 我一直在说谷歌处于多么独特的位置:有现金奶牛、有芯片、有模型。你们的Gemini团队有没有来找你说过"我们不够用"?我知道我在这个点上很纠结,其他那些公司就是跟不上,这对我来说真的太不可思议了。
Thomas Kurian: 对这类东西的需求永远存在,而且我认为未来十年需求会始终超过供给,如果你有自己的芯片,这是个很好的位置。如果你没有,你就只是在转卖别人的东西。在一个产能受限的环境下,你的单位经济成本会变得越来越贵。而我们的情况是,因为我们掌控芯片,单位经济效益仍然具有吸引力。所以拥有自研芯片将是我们的一个核心优势。
主持人: 那如果你把你们TPU的整个算力池、整个计算基础设施看成一块大饼,你能谈谈训练、推理、销售TPU、为其他实验室服务推理这几块大概各占多少吗?
Thomas Kurian: 粗略地说,我们不会公开详细数字,所以我不会逐项拆解。但大体上从宏观来看,谷歌云大约占Alphabet总资本支出的一半,而且还在增长,因为它的增速远超其他业务,这个你们应该清楚。所以这是一个大致的划分比例。而在我们这边,我们相当大比例的增长来自Gemini和我们自己的模型,你可以把这个作为一个粗略的参考。
主持人: 好的。你刚才提到了数据中心和数据中心建设。你能解释一下你所说的"建筑施工"和"工厂制造"在数据中心层面的区别是什么吗?
Thomas Kurian: 说白了就是你部署产能时的基本单元是什么。比如,你可以在数据中心里一个机架一个机架地组装;也可以整排整排地部署。你能以越大的粒度来部署,就越能在一个集中地点提前完成预组装和预测试,部署速度也就越快。
主持人: 当你在规划新数据中心的部署时——我想你比任何人都更清楚,美国社会对数据中心目前有相当负面的看法,我记得支持率大概只有20%左右。你是怎么看待这个问题的?整个AI行业又该如何扭转公众对人工智能、以及对部署数据中心这件事的看法——毕竟数据中心的部署实际上赋予了美国战略优势?我个人对AI是相当乐观的,你是怎么看的?
Thomas Kurian: 人们对数据中心的担忧主要集中在几个方面。第一,数据中心会不会推高我所在的州或县的能源价格?第二,数据中心所在的社区能不能获得足够的就业机会?
针对这些问题,我们正在做几件事。首先,我们正在投资"表后"(behind the meter)技术,也就是说我们不从电网取电,而是在州政府有意愿的情况下与电网互联,这样当电网出现短缺时,我们的能源反过来可以反哺电网。我们在投资替代能源,因为我们认为传统的"发电+配电"模式并不是能源供应进入市场的唯一方式。所以我们正在研究的一个问题是:能否借助AI带来的能源需求,推动新型能源配送方式的出现,从而降低单位能源成本,并进而服务于更广泛的市场?
第三,我们非常重视PUE(电源使用效率)指标,也就是我们所消耗的每一度电的效率。简单来说,如果你需要100兆瓦的计算功率,你从能源侧实际消耗的额外兆瓦数越少,就说明你越没有在浪费能源。我们在这方面是全球最高效的,背后涉及热力学交换、散热方式等数以千计的优化细节。
最后,我们会深度投入我们所在的社区。为了避免让当地社区觉得谷歌把所有资源都集中在一个庞大的地点,我们把数据中心分散部署在许多地方,这样没有哪个州会觉得我们成了他们资源的一个沉重负担。我们在这方面有着很好的记录。我去过我们很多数据中心,当你深入到当地的经济环境中,看到当地学校里的孩子,看到运营我们数据中心的员工——他们对我们来说极为重要——看到我们为那些偏远社区带来了多少经济发展,你会觉得这是我们应尽的责任的一部分。
主持人: 这很好。但如果说到更广泛的社会层面的看法,而不仅仅是你进入的那个当地社区——你进去了、创造了就业、投入了资金、没有直接推高电价,这一切都很好——但你究竟要怎么真正改变更广大美国民众对人工智能的看法?
Thomas Kurian: 这将是一个过程。我认为关键在于找到那些能让技术真正造福社会的应用场景,而不是引发人们对工作被取代的恐惧。让我举几个例子。
在我们的发布会上你会看到一家叫Signal的公司,他们平时不怎么公开宣传自己——他们是德国最大的健康保险公司。他们目前大规模部署了基于Gemini企业版构建的AI智能体,来帮助他们的团队工作。非常有意思的是,当我们刚开始合作时,内部有很多焦虑,担心这会导致裁员。但他们一个人都没裁,而且他们发现,在回答客户关于"我是否符合这项治疗的报销资格"这类问题时,准确率和速度都大幅提升——有些情况下,过去需要23分钟才能查清楚的问题,现在只需要几秒钟就能回答。所以这既提升了效率,也提升了客户服务的质量,而且没有动过一个工作岗位。
我们还与美国临床肿瘤学会合作——他们是全美51,000名肿瘤科医生的行业组织。他们希望有一个AI应用,能在医生坐诊时帮助他们查阅标准治疗指南。比如这位患者来看病,她有乳腺癌,标准治疗方案是什么?但她同时还有糖尿病,如果是这种类型的糖尿病,我就不能给她开化疗——这类规则极其复杂,很多情况下还互相交叉。他们希望AI能帮助提供答案,而且这些答案必须是百分之百准确的,绝对不能出现幻觉。我们帮助他们实现了这一点,帮助医生更好地照护患者,他们会员的反馈令人非常振奋。
还有很多这样的例子。我们经常说,最重要的应用之一是打造一个"财富顾问"。想想普通市民的处境:如果你是高净值人士,你可以去私人银行,有专业的财富管理顾问为你服务;但如果你是没有那些经济资源的普通人,你可能根本得不到高质量的理财建议。花旗集团正在开发一款财富顾问应用,他们会在活动上进行展示,这款应用将借助Gemini的推理和任务管理能力,为用户提供理财建议,并在用户需要时帮助他们执行投资操作。
这些都是社会将会认可其价值的例子。从"AI会造成大规模失业"到听到这一面的声音,需要时间来实现平衡,而这是我们作为一个社会共同走过的旅程的一部分。
主持人: 我想继续聊一个话题——算力需求如果是无限的,尤其在研发层面,为什么不干脆把算力全部留给自己?拥有自己的芯片,在算力受限的环境下保持单位经济效益,这将是谷歌的一大优势,因为你们拥有这些芯片。接下来,我想问你关于模型发布和安全边界的问题:你是否有某条红线,某个基准,让你判断Gemini已经不再安全到可以向公众发布?
Thomas Kurian: 我们从其他所有AI实验室那里得到的需求已经超过了我们所能满足的上限。
主持人: Thomas,什么事情会让你夜不能寐?
主持人: 我确实同意。我认为工作岗位被取代这个问题,尤其令美国普通民众感到非常担忧。我想直接问您——就您的组织谷歌云而言,现在随着人工智能让您的工程师和其他部门的员工效率大幅提升、自动化程度不断提高,请问您们是在招人、裁员,还是保持稳定?你们目前处于哪个阶段?
Thomas Kurian: 我们在产品和销售方面都在增加人手。我们在市场拓展团队方面招募了大量人员,也在大量招聘部署工程师。在我们开发新产品的领域,我们也在扩充能力。
举个人们通常看不到的例子——很早以前,我们就预判到两件事:第一,随着模型在理解代码方面越来越强大;第二,随着模型学会使用计算机来执行任务,它们在很多事情上能做得非常出色。但理解代码带来的一个问题是,模型同样能发现代码中的漏洞,因此新模型引发了大量关于网络安全漏洞的焦虑。这个话题我们等会儿会聊到。
很早以前我们就决定做三件事:第一,借助 Gemini 提升漏洞检测能力,目前已有大量客户在使用;第二,打造一个能够修复代码的模型——因为如果你能快速发现漏洞,人工往往跟不上修复速度,那么模型能否协助你修复?我们针对这一点即将推出新功能。此外,在我们收购 Wiz 之后,你将看到我们结合 Wiz 展示的新能力,其核心是持续检测。
有人称之为"持续红队演练"。我们将展示三种不同类型的智能体(Agent):第一个智能体持续对你发动攻击,确保漏洞能被及时修复、不被打个措手不及——这是以前无法做到的;第二个智能体对发现的问题进行优先级排序,帮你明确哪些漏洞是最需要优先处理的;第三个智能体则协助你完成修复工作。
主持人: 听到你们仍在招人,我很高兴——效率提升了,还在扩招。不过外面确实有一些公司采取了不同的做法。Block 是个典型案例,Jack Dorsey 发了一篇博文,Block 裁减了将近一半的员工,并将 AI 列为原因之一。您认为谷歌这种"效率提升同时持续扩招"的方式,与 Block 那种"重塑公司结构、以一半的人力实现更好效果"的方式之间,差异究竟在哪里?
Thomas Kurian: 每家公司对自己产品和服务的需求情况不同,每位 CEO 都会做出自己的判断。我们看到的是强劲的市场需求,所以我们选择持续投入。
主持人: 我们来聊聊英伟达。黄仁勋最近接受了 Taresh 的播客采访,他谈到英伟达及其架构在每个 Token 的总拥有成本上是最低的,这得益于 CUDA、NVLink 网络以及各种工具链所带来的更优 Token 经济性。您认同这个判断吗?您认为谷歌在总拥有成本上是否最具竞争力?如果不是,谷歌打算如何追赶?
Thomas Kurian: 我们有很多客户说我们的总拥有成本是最低的。
主持人: 好吧,我想这就是答案了,对吧?
Thomas Kurian: 是的,现实情况是,如果你是一家 AI 实验室,你会选择最好的平台。不只是谷歌自己的团队在用,其他 AI 实验室对我们 TPU 的需求,已经远远超过我们所能满足的上限。我只想说:如果我们的成本贵得多,他们根本不会来找我们要 TPU。
主持人: TPU 的核心优势之一是速度吗?我注意到 Gemini 系列模型速度非常快,作为一个速度控,我非常欣赏这一点。通常来说,专用 ASIC 芯片往往比通用 GPU 快得多。这对 AI 实验室或您的客户来说是一大卖点,还是他们始终把质量放在第一位?
Thomas Kurian: 质量。质量是第一位的。但我认为这是一个组合,有三个核心要素——因为关键不只是芯片本身,而是整个系统。以 TPU v8 为例,它拥有 9600 块芯片;v8i 则有 1152 块,全部连接在一个单一的光学 Taurus 网络上。这带来了极高的带宽,以及整个 Pod 中所有芯片之间超可预测的低延迟。这使得我们能以极高的效率将数据从内存中取出进行处理,并再写回内存。举个例子,v8T 训练芯片可以在单个系统中容纳两个 Petabyte 的内存——这相当于美国国会图书馆全部数字化内容的约 100 倍。
由于网络延迟极低,内存到芯片的数据吞吐量也极为迅速。第三,在硬件层之上,从编程栈的角度来看,谷歌开发并贡献给业界的工具非常丰富,例如用于编译器优化的 JAX,我们在 PyTorch 上也做了大量工作,还有 XLA、Pathways——这些都是谷歌构建的技术。把这一切加在一起,即便你看推理和视觉语言模型,我们也针对其中大量技术进行了深度优化。正是这整套技术栈,让 TPU 系统如此高效、如此强大。
我们通过一个叫做"goodput(有效吞吐量)"的指标来衡量这一点——它衡量的是你实际获得的有效吞吐量。我们三四年前还做了一个决策:预见到能源将会供不应求,于是我们专注于优化每瓦特算力的性价比,也就是每瓦特能产出多少 Token。这也是如今很多人选择我们的重要原因之一。
主持人: 您之前提到 TPU 的布局已有 11 年历史了。在科技行业,11 年是一段相当漫长的时间,能看到一个如此久远的决策在近几年结出如此丰硕的果实,实在令人感慨。那么,您的规划会随着市场的变化产生多大幅度的调整?是多年前的决策仍然坚定不移地贯彻执行,还是你们需要不断地调整方向?
Thomas Kurian: 我们在技术栈各层积累的历史经验,随着时间推移形成了复利效应。当我们做 TensorFlow 的时候,我们意识到训练需要一个大规模分布式编程模型,于是我们开发了 JAX。JAX 正是在 TensorFlow 的经验积累上,以及人们对新型分布式训练模型的需求上,进一步迭代的产物。所以,很多东西是随着时间推移不断积累的,我们从过去的实践中学习,并持续改进。
与此同时,我们也极其敏锐地关注市场、倾听客户的声音。比如有人问我们:为什么要专门开发 v8i 这颗推理芯片?原因在于我们看到一个规律——无论一家公司多么财大气粗,如果不能靠推理赚钱,就无力持续负担训练的成本。你必须至少让推理收入能抵消训练的成本,而不能永远依赖风险投资来输血。所以我们判断推理的需求将会爆发式增长,明确了推理所需的优化方向,而事实上,v8i 推理芯片的市场需求,远远超出了我们原先的预期。
主持人: 我们来聊聊第八代芯片。这是你们首次将芯片拆分成两个不同的系列——一个专注推理,一个专注预训练。首先请确认一下,Ironwood 是主要为推理设计的吗?
Thomas Kurian: Ironwood 是混合用途的,既用于训练,也用于推理。我认为人们使用推理时有很强的时间规律性——白天用户醒来会问大量问题,到了晚上有些人还是会睡觉的,所以那段时间很多推理任务会用 Spot 实例来跑;训练后微调(post-training)也有很多人在夜间用 Spot 实例来完成。所以 Ironwood 是一款通用型芯片。v8T 则主要面向训练,但也有人在考虑将其用于推理。v8i 主要用于推理,不过对于规模较小的模型,也有人用它来做训练。
主持人: 从你们决定拆分这两款芯片这件事来看,您认为计算工作负载将向何处演进?您现在观察到了什么?未来五年,主要的工作负载会集中在哪里?
Thomas Kurian: 这一点,从我们在 Gemini 上做的工作中体现得并不亚于芯片设计本身。如果你观察 Gemini,我们大致看到了模型发展的三个阶段:
第一阶段,用户向模型提问,模型作出回答,可能会经历多轮对话迭代,但整体上更像是一种搜索式聊天机器人体验。我们的 Gemini 企业版提供了搜索问答的能力,并加入了"深度研究"功能用于深度分析。
第二阶段,人们过去主要用扩散模型来生成内容,比如图像、音频、视频。从 Gemini 2.5 Nano 开始,多模态输入其实一直存在,但多模态输出成为主模型的原生能力。我们看到 WPP 等创意公司,以及各类消费品公司,开始使用 Gemini 企业版——我们的企业级 AI 平台——来进行内容创作,各式各样的内容创作场景应运而生。
然后,模型在处理现实世界的各种抽象层面变得越来越强大。所谓"抽象",是指在企业场景中,模型需要接入各种各样的系统——比如对接 CRM 系统来回答客户相关的问题,查阅供应链和计划系统等等。而终极的抽象,是将整个世界抽象成一台计算机——因为如果你能和计算机对话,计算机就能和一切对话,因为所有软件本质上都是计算机与外界沟通的抽象形式。
主持人: 您认为"模型能够控制计算机、使用浏览器"是终极形态的抽象吗?而且不只是"我能和计算机对话",还需要能理解计算机返回的信息并做出响应——您明白我的意思吗?
Thomas Kurian: 是的,这正是"智能体"(Agent)这一概念的由来。智能体是一个模块,你可以向它委派任务。智能体描述自身拥有的技能集,知道如何操作一系列工具,包括计算机,并能代表你执行任务。这使得 Xfinity 能用我们的技术来调度和管理整个客户服务体系,沃尔玛能在从供应链规划到排班的各种场景中使用我们,博世将我们用于制造业,默克(Merck)则谈到了如何将我们用于研究——从药物发现,一直到将药品交付给患者,整个流程的自动化。这就是下一个进化阶段。
我们在某种程度上是"协同设计"的——随着模型能力的进步,我们能够不断扩展可自动化的任务边界。
主持人: 把这个拉回到芯片拆分的决策上——推理和训练分开,这两者之间有什么内在联系?
Thomas Kurian: 回到第一阶段,也就是搜索问答的阶段:输入 Token 远多于输出 Token,因为你会给模型一个很长很复杂的问题,它返回一个相对简单的答案。
进入内容生成阶段,你只需给出一个简单的提示词,比如"生成一段视频,展示我的狗穿着超人斗篷在开车",然后模型需要花很长时间来生成大量输出 Token。这就产生了截然不同的 Token 构成比例——多模态是一大变量,输出 Token 的体量也大幅增长。
到了智能体阶段,对芯片设计的影响体现在三四个不同维度。首先是内存驻留时间的问题:你委派给智能体的任务可能需要运行 6 小时、7 小时甚至 12 小时,你不希望频繁地将内容换入换出内存,因为那会带来高昂的 Token 计算成本。因此,KV 缓存的设计需要重新考量,这是一个典型例子。
所以当人们问我们,这些经历是如何影响你们芯片研发方向的——我们不仅与英特尔合作,我们自己也有ARM芯片,我们研发它是因为我们看到了这些工具带来的通用算力需求。当你运行一个需要执行很多很多不同步骤的推理智能体时,有些事情涉及到你希望如何在模型中保留和固定对象,从而让模型运行得极为高效,因为这能大幅优化推理成本。我们在芯片如何在内存中保存数据这方面做了很多内部工作。另外,因为人们想要更直观的例子——人们希望在很多地方都能部署推理,因为他们需要管理延迟,这和训练不同,训练可以集中在少数几个大型地点完成。
所以一个实际的例子是:8i可以在非水冷模式下运行,这样你就可以把它部署在更多地点,因为风冷仍然是大多数数据中心的主要散热方式。这些决策背后都有大量的深思熟虑。我只是举三个简单的例子来说明。
主持人: 是的,我觉得智能体这块确实很有意思,因为它真正改变了这些token在实际中的使用方式。英伟达大谈极致协同设计(extreme co-design),谷歌看起来在每个层面都在做极致协同设计。
Thomas Kurian: 是的。
主持人: 先聊聊智能体的使用场景,尤其是当你需要做大量的硬盘读写操作时,有很多方面需要去优化。在TPU技术栈上,你们最近优化的是什么?基于智能体使用量的增长,你认为下一个大的瓶颈在哪里?
Thomas Kurian: 我们一直在审视整个系统。举几个例子:我们下周将发布两项全新的存储解决方案。
第一个是我们的托管Lustre解决方案,我们将其吞吐量提升到了每秒10太字节,它真正为大规模训练而设计。你可以将它与一个超大规模集群交叉互联,因为你拥有大型数据集,你现在可以从大规模Lustre集群中将数据读取到大型训练集群中,实现超高效率的扩展。
第二个是我们推出的一种全新的超低延迟推理存储系统,称为"Rapid Storage"。它的理念是:你可以将需要用于推理的信息集中存储在云存储中,但可以将其挂载在靠近推理芯片运行位置的地方——可以把它想象成一种前向代理机制。从你的推理处理器到存储系统Rapid Storage进行数据获取,速度极快,达到每秒15太字节,实现超低延迟。
同时,你还需要在一个统一的网络骨干上优化所有这些。所以我们正在推出一种新型网络架构,叫做Virgo,它能在超大规模集群内提供超低延迟的高速互联。此外,还有很多其他层面的工作我们也在进行协同设计,这些都是为了应对智能体的到来,核心目标是以最高效的成本结构,为人们提供性能最佳、质量最好的智能体运行环境。
主持人: 下一个大瓶颈在哪里?
Thomas Kurian: 下一个大瓶颈很大程度上将出现在消费者使用虚拟机的环节。比如说,我是一个家庭用户,我构建了一个智能体,这个智能体将帮我安排出行——假设你要去度假,你让它完成一系列任务,比如查询八个旅行网站,这些网站作为工具暴露出来,也就是现在大家常说的MCP或API,让它去找所有旅行网站,假设是订一趟去欧洲或东南亚的行程,帮我计算总费用并告知我的预算。
消费者负担不起让虚拟机永久运行的成本,那非常昂贵,正如你所知道的。所以人们希望在任务完成时随时激活、停用虚拟机。而且因为这些工具需要本地存储,这些虚拟机虽然可以超量部署,但你也可以配置本地磁盘来实现超高效的读写,这将成为一个瓶颈,因为它会直接影响这项技术能够普及的广度。企业当然可以为此付费,越便宜、越高效,他们就能使用越多;但如果你想把这项技术普及到消费者,对他们来说成本很快就会变得高昂。如果你想触达所有人,就必须在工程层面解决这些成本结构的问题。而正是那种能够跨层贯通的能力——从智能体层到Gemini层,再到存储系统和计算系统——才让我们能够做协同设计。
主持人: 谢谢你的分享。我想聊一聊Anthropic。Anthropic是谷歌的客户,他们在很多方面都很独特。Claude是谷歌最强劲的竞争对手之一,但与此同时,你们实际上又是他们大量训练和推理工作的基础设施支撑。你们是如何看待这个决策的?我知道我们之前稍有提及,但我想深入探讨一下:你如何看待为Anthropic的模型提供算力,而他们同时又在与谷歌竞争?这是AWS的打法——为所有人提供服务,不偏袒任何一方?还是有所不同?
Thomas Kurian: 谷歌是一家平台公司。当你是一家平台公司时,你的业务的不同部分会与市场上的不同玩家形成竞争,某些业务部分可能为他们提供供给,另一些部分又与他们竞争。我们致力于在模型层面做到业界最佳,我们对自己所做的工作感到非常自豪,不仅仅是Gemini这个模型本身,还包括我们围绕Gemini构建的完整工具链,以及我们的企业工具组合。与此同时,有些客户希望使用我们的TPU,Anthropic就是其中一个例子。这只是作为一家平台公司的一部分。就像人们问我们,你们的模型与苹果的合作优化做得如何?苹果已经与我们签订了模型合同,你也知道。于是人们问:这不是在和你们的Android平台及生态系统竞争吗?是的,但这就是平台公司的一部分。
主持人: 我还是有点执念于Anthropic这个问题,因为他们毕竟在企业层面是直接竞争的,而苹果则不然。我在想,你们给他们提供算力,而到了某个时间点——尽管你说现在TPU产能还很充裕——但届时可能就必须做出艰难的抉择:这些产能是给Anthropic,还是留给Gemini?留给我们自己的研究?你怎么做这个决策?
Thomas Kurian: 我们有一个以Sundar为首的管理团队,我们会在一起讨论,就像任何一家成熟的公司一样做出这些决策。每天都有艰难的判断。比如说,我们收到的需求不仅仅来自Anthropic。所以哪怕你说有X量的产能留给Gemini,Y量的产能留给其他所有人,那么在这Y之中,你又如何分配给Anthropic,以及数百家其他实验室和客户呢?这些都是任何人都必须面对的复杂决策。但我可以告诉你一件事:拥有自己的芯片和需求,远比没有自己的芯片要好得多。
主持人: 说得好。Mythos据传是第一个万亿参数规模的模型,谷歌现在在10万亿参数模型这个领域有所布局吗?还是接近了?你们目前处于这个发展周期的哪个阶段?
Thomas Kurian: 关于Gemini,你会在Next大会以及之后不久看到我们的新动作。在模型能力方面,我们对Gemini所处的位置非常自豪。它长期以来都处于业界领先水平。我们有一个新版本的Gemini即将推出,从我们看到的所有基准测试来看,我们对此同样充满信心。
主持人: 假设性地问一下,如果考虑一个10万亿参数的模型,基于你在TPU层面的统筹,这在当前世界的技术状态下,是一个可行的服务规模吗?
Thomas Kurian: 我们长期以来具备分离式部署(disaggregated serving)的能力,这使我们能够非常出色地扩展非常大型的稠密模型,这一能力已经存在很长时间了。所以,我们不会设计出我们自己都无法部署的模型。我们完全有信心,TPU能够服务世界上最大的模型。最重要的是,我们用于分离式部署的服务栈,在所有模型提供商中,对TPU的使用效率是最高的。所以我们完全有信心,能够服务最大的模型,尤其是最大的Gemini模型。
主持人: 这是否意味着我们在预训练的扩展侧没有看到任何放缓?你们完全没有感受到吗?因为业界有一段时间在讨论预训练正在放缓,应该把重心转向强化学习,转向思考时间(thinking time)。你们完全没有这种感觉吗?
Thomas Kurian: 从芯片设计、系统设计或产能层面,我们都没有看到这种放缓。
主持人: 那底层数据方面呢?你们是否看到合成数据有更高效的应用?
Thomas Kurian: 我来举两三个我们实际观察到的例子。历史上,输入模型的数据大多是非结构化数据,比如文本、音频、视频、文件等,这些数据量持续增长。但现实情况是,在企业场景中有很多元素,实际上相对容易处理。比如你向智能体提问,让它告诉你答案的引用来源,如果是文档中的内容,就很简单,只需展示一个链接即可。
但想象一下,你问模型一个问题:"告诉我需要备货多少才能满足这款产品的需求。"这就需要转化为对SAP之类系统或某种供应链系统的查询,它需要动态地查询一组数据表。首先,准确地将这个查询分解到对应的数据表,然后展示响应时——引用来源在哪里?你怎么知道你给我的答案是正确的?这是一个复杂得多的问题。
正因为我们在企业领域的工作,我们能够向Gemini的轨迹优化训练框架输入更多的结构化数据循环,包括结构化数据和复杂字段这类复杂内容。比如,你有没有见过——在讨论浏览器中的计算机使用时——一个有一千个字段、下拉列表等的企业应用?没有任何消费级应用会有如此高的复杂度。在这个领域深耕,也让我们能够将这些内容教给我们的Gemini系统,并将其融入训练框架。
主持人: 那我们继续聊训练框架和智能体编程这个话题吧。我最近自己也在大量编程。有一条帖子在网上疯传,说是某人有位朋友在谷歌,那位朋友基本说谷歌在内部并没有站在智能体编程的前沿。你怎么看这件事?谷歌内部是如何采用智能体编程的?尤其是,我必须再次提到Anthropic,他们的发布速度令人叹为观止。谷歌是如何拥抱智能体编程前沿的?
Thomas Kurian: 目前,我们有大量工程师在使用Jet Ski,这是我们内部的编程框架,其反馈正在实时传递给DeepMind,形成强化学习的闭环,每天都在提升Gemini在编程方面的质量。我的组织里有很多人都在使用它。
主持人: 有一件事我注意到——我比以前更有生产力了,我发布产品的速度非常快,过程非常愉快,我没有逐行审查代码。实际上,我审查的代码行数非常少。但谷歌不能这样做。我的项目都是小玩具项目,而谷歌要处理的是高风险的项目、服务和产品。你们如何既站在智能体编程的前沿、产出海量代码,同时又保证质量,确保每一行部署的代码都经过了审查?
Thomas Kurian: 当我们谈论软件工程生产力时,我们的看法与外部报道的视角略有不同。如果你在一家像谷歌这样开发产品的公司工作,现实情况是有两三件事非常重要。比如,一位资深工程师写的代码比一位初级工程师紧凑得多。所以我们不以代码行数作为衡量指标,因为通常来说,能力相对弱的工程师需要写更多的代码来完成同一个任务,而资深工程师写得更精炼。
主持人: 这几乎是个老生常谈的说法了,多年来一直如此,但我觉得现在比以往任何时候都更重要的是整体的交付速度。
Thomas Kurian: 是的,重要的是我们增加了多少功能。
第二,谷歌一直有一个传统:提交代码时需要同伴评审,通常由资深主管来完成,而他们往往成为瓶颈。因此,我们引入了Gemini,人们也在使用它——例如,我们最近在Cloud中引入了它来扫描代码中的安全漏洞。所以这个工具不仅仅用于生成代码,我们也用它来检查代码,这有助于在资深工程师来做最终审查之前,预先完成大量前置工作。
第三,从长远来看,在任何真正的软件公司里,工程师们发现自己花在低效工作上的大部分时间,是在调试问题。所以我们构建了一个Gemini的特定版本,我们下周将展示的其中一件事就是:世界上最复杂的计算机就是云。与之相比,个人电脑不过是个玩具。我们将整个云的能力和工具全部开放给模型。现在我们正在用Gemini来排查正在发生的故障事件,这也帮助我们提升了工作效率,进而提高了模型本身的质量。我们从多个维度来审视这个问题。但随着生产力不断提升、功能迭代越来越快——代码行数当然不是衡量标准,但它确实是这种速度提升的一个体现——终究会到达一个临界点,你根本无法审查每一行代码。
主持人: 更进一步来想,随着时间推移,人类对实际代码的理解会越来越少。尤其是您刚才提到的,如果用AI来审查代码、调试代码——如果AI既负责生成代码,又负责审查代码,我们是否正在失去对代码本身以及所部署功能的核心理解?
Thomas Kurian: 这是整个行业都必须管控的风险。人们常说:我给你一个提示词,它就能生成一段代码,你不需要理解代码,因为你理解提示词就够了。但现实是,对于一个复杂的系统,提示词并不能解释代码所有潜在的行为。比如,你该如何处理异常?
每次出现这种论调,我都觉得似曾相识。前些年有人说不需要那么多软件工程师了,结果模型出来之后发现了大量安全漏洞——就在这个节骨眼上,我们反而需要大量软件工程师来配合模型工作。比如我们正在推出一个新版本的模型,它能够修复漏洞、专门修复安全漏洞,但你依然需要一个人来使用这个工具并加以专注地把控。这个行业有时候容易矫枉过正,说"根本不需要任何人",结果恰恰是在最需要人的时候这么说。
所以我们始终保持更长远的视角。我们一直在思考,比如是否需要一个"监督模型"以不同的方式来审查代码——这也是为什么我说我们依然坚持代码的同行评审,并且帮助我们的高级工程师使用工具来完成审查。接下来的问题是:这个工具是否有足够的自我感知——如果是它自己生成的代码,它能否发现其中的问题?因为它对某些代码模式可能缺乏自我认知。这是我们正在探索解决方案的方向。
我们的目标始终是打造最优秀的模型,并将其大规模应用。仅在我的团队中,就有数千人每天都在使用它。如果你走到对面的园区,可以看到有人同时开着六个窗口——一个在写代码,一个在编译,一个在部署和测试,另一个在后台跑代码审查任务。整套工具链有大量的人在使用,这就是工作方式演进的一部分。
主持人:您提到了网络安全,我们就以这个话题收尾。Anthropic认为其Mythos模型在网络安全能力方面过于先进,暂时不宜公开发布。对于谷歌而言,您如何看待这件事?您的第一反应是什么?另外,是否存在某条红线或某个基准,一旦触及,您就会认为Gemini不再适合公开发布?
Thomas Kurian:我们正在研究这条线应该划在哪里。但我们面临的核心问题是:Mythos发现的那些漏洞,有多大比例同样可以用开源模型发现?我之所以提到开源模型,是因为无论你怎么防范,即便能确保闭源模型不落入对手之手,开源模型肯定是会流入对手手中的,而且它们还在持续进化、越来越强。所以迟早有一天,其中某些能力——也许不是全部——是可以被检测和利用的。
那么我们应该如何应对?我们有独特的优势,因为我们既是超大规模云服务商,又是模型提供商,同时还拥有网络安全团队——包括我们的Mandiant团队和Wiz。我们采取了三项切实举措:
第一,如果人们要用模型来发现漏洞,你就需要用模型来帮助修复漏洞——因为漏洞被发现的速度远超人工修复的速度,所以必须用模型来辅助修复。
第二,如果对手用模型来发现漏洞,他们也会利用模型和计算机来发动大规模攻击。面对这种威胁,每月只做一次红队测试是远远不够的。因此,我们需要引入能够持续进行红队测试的智能体,以及能够辅助修复的智能体——修复代码是一回事,找出所有运行旧代码的地方、将其清除、再部署经过补丁更新的新代码,这又是另一回事。
第三,现存代码量如此庞大,从哪里开始下手?这又是一个问题。我们为此构建了工具,帮助人们识别并确定优先级。
主持人:这是否意味着开源软件(注意不是开源模型,而是开源软件)是弊大于利的?如果你的代码是开源的,全都暴露在外,模型就可以扫描、发现漏洞并加以利用。闭源则没有这个问题。但另一方面,开源代码会被更快速地加固。您怎么看?这到底是支持还是反对开源的论据?
Thomas Kurian:我们谷歌大量使用开源,也大量贡献开源。我们会用自己的工具帮助开源社区修复这些问题。我只是在陈述现实:对手会使用模型,他们首先会扫描的,就是那些流行的开源库,因为这能给他们提供最大的攻击面。这是我们认为必须认真对待、积极修复的问题,我们正在与业界其他伙伴共同推进。
主持人:Thomas,最后一个问题:什么事情会让您夜不能寐?
Thomas Kurian:我们需要平衡很多事情。第一,我们是否有面向未来的长期计划——数据中心、网络基础设施,以及足够多的TPU?第二,我们是否始终在聚焦最核心、最重要的问题?三年前,我们就判断随着AI能力增强,网络安全领域必将受到深远影响。当我们提出收购Wiz的时候,很多人问:你们为什么要这么做?
再举个例子,看看我们的Gemini企业平台:从今年一月到现在,我们的Token处理量已经从每分钟100亿增长到每分钟160亿。Gemini企业版的企业用户数环比增长了40%。
所以,我们始终在追问:我们是否在为客户和用户解决正确的问题?这始终是我们的核心聚焦所在。只要我们持续积极地推进问题的解决,保持对市场的领先——在技术如此快速演进的今天,当某件事发生时,你必须提前就准备好解决方案。我们的团队做出了令人惊叹的成果,我们为他们感到无比自豪,也期待接下来的活动。
主持人:Thomas,非常感谢您,真的非常感谢!