文 | 版面之外,作者|版君
英伟达和谷歌,两场大会,两个人,说了同一个词。
3 月 16 日,圣何塞,GTC 2026。黄仁勋把数据中心定义为 " 生产 Token 的工厂 ",并给出一个惊人的判断,到 2027 年,这个市场的需求规模至少 1 万亿美元。
4 月 22 日,拉斯维加斯,Google Cloud Next 2026。桑达尔 · 皮查伊给出另一组数字:谷歌每分钟处理 160 亿个 token,上个季度还是 100 亿。今年资本开支 1750 亿到 1850 亿美元。
两个人都在谈 Token。但一个在描述供给,一个在展示消耗。
过去很长一段时间,外界习惯性地把谷歌放在追赶者的位置。
这个判断,正在失效。
把这两场大会放在一起看,会发现一个更关键的变化:这不是同一场竞争。
一、卖铲子的,和造工厂的
理解这两家公司,先要看清它们各自在卖什么。
英伟达的产品,是生产资料。
GPU 是通用算力,从 OpenAI 到 Meta,从字节跳动到主权基金,几乎所有头部 AI 玩家,都在它的客户名单里。
CUDA 生态汇聚超 600 万全球开发者、900 余个 CUDA-X 加速库,二十年持续迭代的生态飞轮,早已成为 AI 时代算力底层的标准件。
黄仁勋那句判断很有代表性:即便竞争对手的架构是免费的,也未必足够便宜。
2025 财年,NVIDIA 数据中心业务收入超过 1150 亿美元,同比增长超过 200%,毛利率在 75% 以上,在全球 AI 加速器市场占据约 80% 的份额。
换句话说,每 10 块 AI 算力芯片里,至少有 8 块来自英伟达。
这是一门典型的卖铲子的生意,而且是所有人都离不开的那种。
谷歌的路径完全不同,它提供的不是单一工具,而是一整套运行体系。
自研 TPU 芯片、训练 Gemini 模型、运行在 Cloud 之上,再对外提供服务。从底层算力到上层应用,全部打通。
目前 Google 云业务年收入已接近 600 亿美元,过去一年增长接近 50%,AI 相关需求成为最核心的驱动力。
这种模式更像是自己搭建了一座完整的工厂,再把多余的产能对外输出。
英伟达的逻辑,是把设备卖给所有人。谷歌的路径,则是先把体系跑起来,再让别人接入。
一个掌握生产资料,一个在组织生产过程。
二、TPU 一刀切两半
这次谷歌 Cloud Next,TPU 最值得注意的变化,不在参数,而在结构。
从 2017 年 TPU v2 起至 2025 年 v7 Ironwood,整整六代产品,谷歌始终采用单颗通用芯片同时承载大模型训练与推理任务。
直到这次发布第八代 TPU,谷歌首次彻底战略转向,将训练、推理拆分为两颗专属独立芯片(TPU 8t、TPU 8i)。
分家的原因很直接,Agent 时代,推理和训练的负载特征完全不同。
一个智能体完成任务,往往需要多次调用模型,每一次调用都要求低延迟、高并发。这和训练阶段的集中算力需求完全不同。
一颗芯片同时跑训练和推理,哪头都凑合,哪头都不够好。
背后的算账逻辑很清楚。训练是一次性投入,模型训好就行。推理是持续性消耗,用户每用一次就推理一次。
当 token 规模从 100 亿 / 分钟跃升到 160 亿 / 分钟,推理端的效率开始直接决定成本结构。
这也解释了两家公司技术路径的差异。英伟达持续优化单颗芯片性能,谷歌更关注集群效率与整体成本。
三、Anthropic 的一百万颗芯片
TPU 从内部工具走向外部市场,有一个明显的标志,开始承载头部模型公司的核心负载。
2025 年 10 月,Anthropic 与谷歌签了一份多年期协议,最多使用 100 万颗 Ironwood TPU,价值数百亿美元。
这是 AI 历史上最大的单笔算力交易。
紧接着,Meta 传出正在考虑从 2027 年起部署 TPU。消息一出,英伟达股价当天大跌。
这一系列动作,对英伟达来说,是最危险的信号。不是某个小公司在试水,是 Anthropic,是 Meta,全球头部的大模型公司,都要把自家最核心的推理负载全部押在了 TPU 上。
谷歌的策略很明确:用 Anthropic 和 Meta 做样板客户,证明 TPU 能替代英伟达,然后通过 Cloud 平台把 TPU 算力卖给所有企业。
如果说英伟达的优势在软件生态,CUDA 形成了强绑定。谷歌的突破口,则来自成本。
Ironwood TPU 的核心目标是显著降低总拥有成本。精密分析显示,其每美元性能 / 价格比较前代提升 2 倍,相比 NVIDIA B200 在总拥有成本上具有约 30%~41% 的优势,可有效帮助企业控制推理成本。
当推理成本被压到对手的一半以下,软件壁垒就开始松动了。因为企业算账的时候,省下来的钱足够覆盖迁移成本。
技术壁垒依然存在,但经济驱动开始改变选择。
四、160 亿 token 背后的真话
皮查伊在 Cloud Next 上说了三个数字:160 亿 token 每分钟。75% 的新代码由 AI 生成。今年投入 1750 亿到 1850 亿美元。
看起来分散,其实指向同一件事。
这些 token,不只是 API 调用,还包括搜索、广告、YouTube 推荐、安全系统和内部开发。
从 100 亿到 160 亿,单季度增长超过 60%,按这个规模估算,谷歌每天处理的 token 已经达到万亿级。
作为对比,当前头部模型公司的 API 调用,大致处在数百亿到千亿 token/ 天的区间。
谷歌的体量,已经超出单一模型公司的范畴,更接近一个基础设施级消费体。
这和黄仁勋提出的 "Token 工厂 ",形成了一个有意思的对照。
黄仁勋描述的是一个卖方市场。Token 是商品,GPU 是生产设备,价格分五个层级,从免费到 150 美元每百万 token。你来买设备,生产 Token,卖给你的客户。
他在 GTC 上连 Token 的定价体系都替行业设计好了。
英伟达围绕供给侧构建体系,谷歌则在放大需求侧规模。
一个定义产能,一个吞下产能。而长期来看,需求会反过来塑造供给。
谷歌对 TPU 性价比的优化动力,远超任何外部客户,因为每降低一分钱的推理成本,省下来的钱首先进了自己的口袋。本质上,谷歌自己就是全世界最大的 Token 消费者。
五、谁会赢?
短期看,英伟达赢。CUDA 生态的壁垒、80% 的市场份额、75% 以上的毛利率,这些不会一夜被颠覆。
黄仁勋直言,到 2027 年英伟达将迎来至少 1 万亿美元的确定性算力需求;其中 60% 来自全球前五大超大规模云厂商,剩余 40% 分散于企业私有部署、主权云、边缘计算及全行业场景。
这份预判,有着十足的底气。
但谷歌正在把竞争拉到英伟达不擅长的维度。
这次 Cloud Next 上,GE 在谷歌的 Agent 平台上跑了超过 800 个智能体,覆盖制造、物流和供应链。毕马威首月部署超过 100 个智能体,90% 的员工在用。默克签了 10 亿美元合同。
谷歌云 CEO 库里安还确认,基于 Gemini 构建的苹果新一代 Siri 将于今年发布,合作每年价值约 10 亿美元。
当企业客户的需求从一块 GPU 变成了帮我管住一千个 Agent,卖芯片的就比不过卖系统的了。
英伟达解决的是有没有算力,谷歌要解决的是算力怎么被用起来。
这不是谁杀死谁的故事。就像石油行业既有卖钻头的哈里伯顿,也有自己钻井、炼化、零售一条龙的沙特阿美。两种模式会长期共存。
但有一件事正在发生变化。
过去,英伟达是所有人的唯一选择。现在,谷歌证明了另一条路走得通。Anthropic 选了 TPU,Meta 在考虑 TPU,苹果把 Siri 交给了谷歌 Gemini。
选择变多了。对垄断者来说,这就是最大的威胁。
ChatGPT 出来后的两年多,谷歌看起来像一个追赶者。但 Cloud Next 讲了一个不同的故事,谷歌没有赢模型竞赛,但它把 AI 重新变回了一个基础设施问题。
而做基础设施,恰好是谷歌最擅长的事。
谷歌不是在追英伟达,也并非想在芯片战场打败英伟达。
从一开始,它们跑的就不是同一场比赛。
【版面之外】的话:
AI 的上半场,是训练模型。下半场,是管理智能体。终局,可能是控制系统。
黄仁勋说 Token 是新的大宗商品。皮查伊说谷歌每分钟消耗 160 亿个。一个在定义市场,一个在吃下产能。
如果说上一轮互联网的入口是 App,这一轮 AI 入口不是模型,是系统。
而系统一旦形成,就不会轻易更换。