文 | 云石乱笔
2026 年 3 月 20 日,NVIDIA 确认将在 2027 年底前向 AWS 交付一百万颗 GPU,同时搭售 Spectrum 网络芯片和 Groq 推理芯片。三个月前,AWS 和 NVIDIA 在 re:Invent 2025 上宣布,AWS 的下一代自研芯片 Trainium4 将接入 NVIDIA 的 NVLink Fusion 平台。
还是在这个月,TechCrunch 的一次独家实验室探访揭开了另一面:Trainium 已经部署了 140 万颗芯片,Anthropic 的 Claude 正跑在超过 100 万颗 Trainium2 上,Andy Jassy 称其为 " 数十亿美元级业务 "。
一边是百万 GPU 的巨额采购和 NVIDIA 平台的深度融合,另一边是自研芯片已经拿下最重要的客户。AWS 的自研故事既不是走向独立,也不是走向投降,而是走向一种新型的 " 竞合共生 "。这究竟是务实的智慧,还是危险的依赖?
不只是 GPU:七颗芯片的全栈渗透
表面上看,这是一笔 GPU 大单。一百万颗 GPU,2026 年开始交付,2027 年底完成。按 NVIDIA 当前 Blackwell 架构的定价估算,这笔交易的金额可能在 300 至 500 亿美元量级。
但交易的完整清单更值得细看。NVIDIA 副总裁 Ian Buck 在接受采访时透露,这笔交易涉及七种不同的 NVIDIA 芯片。他的原话是:"To be the best at inference, it is not a one chip pony. We actually use all seven chips."(要在推理领域做到最好,不是靠一颗芯片就能搞定的。我们实际上用了全部七颗芯片。)
这七种芯片至少包括:GPU(用于训练和推理)、Groq 推理专用芯片、Spectrum 网络交换芯片、ConnectX 网络接口卡,以及其他专用处理器。
这不是一次简单的硬件采购。NVIDIA 正在将自己的整个 AI 基础设施栈,计算、网络、推理优化,一整套植入到 AWS 的数据中心。
Trainium:一个已经被证明的数十亿美元赌注
2025 年 12 月的 re:Invent 大会上,AWS CEO Matt Garman 站在台上,用了大量篇幅介绍 Trainium3。三个月后,AWS 转身签下了一百万颗 NVIDIA GPU 的订单。
大多数观察者的第一反应是:AWS 对自研芯片失去了信心。
但如果他们走进位于奥斯汀 The Domain 区那栋闪着铬色玻璃幕墙的大楼,看看 Annapurna Labs(AWS 于 2015 年以约 3.5 亿美元收购的以色列芯片设计公司)的实验室里正在发生什么,结论或许会截然不同。
截至 2026 年 3 月,AWS 已经在三代产品上累计部署了 140 万颗 Trainium 芯片。其中 Anthropic 的 Claude 模型正运行在超过 100 万颗 Trainium2 上。仅 Project Rainier 一个集群——全球最大的 AI 计算集群之一 — 就集成了 50 万颗 Trainium2 芯片,于 2025 年底投入运营。
Trainium2 还承担了 Amazon Bedrock 服务上大部分的推理流量。AWS CEO Andy Jassy 在 2025 年 12 月公开表示,Trainium 已经是 AWS 的 " 数十亿美元级业务 "。
而绑定还在加深:据 Business Insider 报道,Anthropic 已正式承诺采购 100 万颗 Trainium 芯片,这一承诺涵盖已部署的芯片和未来的增量订单,进一步将自己的未来押注在 AWS 的自研芯片生态上。
这些数字彻底改写了 " 自研芯片还在蹒跚学步 " 的叙事。Trainium 不是一个有待证明的实验,它是一个已经大规模部署、拿下最重要的 AI 客户、正在创造数十亿美元收入的生产级产品。
Trainium3:在成功基础上的激进跃升
在 Trainium2 已经站稳脚跟的基础上,Trainium3 的野心更大。如果你仔细研读 SemiAnalysis 发布的技术深度分析,会发现 Trainium3 是 AWS 有史以来设计最激进的 AI 芯片。
几个关键数字足以说明它的分量:台积电 3 纳米制程(N3P),144GB 高带宽内存(Trainium2 只有 72GB),内存带宽提升 70%,AI 计算性能翻倍。Amazon 宣称,搭载 Trainium3 的 Trn3 UltraServer 在同等性能下的运行成本比传统云服务器低 50%。当每天处理数万亿 tokens 时,这个差距会积累成巨大的竞争优势。
但比芯片本身更有野心的是它的系统设计。AWS 为 Trainium3 打造了名为 NeuronLink 的自研互联架构,每颗芯片的通信带宽达到 1.2 TB/s,并设计了两种机架形态:风冷版(64 颗芯片组成计算集群)和液冷版(144 颗芯片,设计思路直接对标 NVIDIA 的 GB200 NVL72)。更巧妙的是,机架内的交换模块设计了三代演进路线,每一代都可以在现场升级,无需替换计算硬件。
实验室主任 Kristopher King 在接受 TechCrunch 采访时说,Trainium3 配合团队自研的 Neuron 交换机,让 " 每颗芯片都能与其他所有芯片在 mesh 配置中直接通信,大幅降低延迟 "。工程总监 Mark Carroll 则称,这套组合 " 正在刷新各种记录 ",尤其是 " 每瓦性能 " 指标。
这种 " 先上车后换票 " 的工程哲学,是 AWS 作为云运营商与 NVIDIA 作为芯片厂商在设计理念上的根本分歧。NVIDIA 追求的是峰值性能,AWS 追求的是运营灵活性。
供应链层面同样下了重注。AWS 通过股权认购权(warrant)协议与核心供应商深度绑定,拿到了远低于市场价的元器件成本。SemiAnalysis 的描述是,有的供应商 " 实质上是倒贴钱让 Amazon 拿走零部件 "。
所以问题不是 Trainium 能不能行——它已经证明了自己。问题是:既然 Trainium 已经如此成功,AWS 为什么还要买一百万颗 NVIDIA GPU?
时间窗口的残酷算术
答案不在芯片本身,而在时间和规模。
Trainium3 的液冷版本 2025 年 12 月发布,正在爬坡量产。而 NVIDIA 的 GB200 NVL72 已经在 2025 年上半年开始出货。在 AI 模型训练的军备竞赛中,6 到 12 个月的时间差足以决定一个模型世代的成败。
更关键的是客户需求的爆发速度。实验室主任 King 坦言:" 我们的客户群在以我们能交付产能的最快速度扩张。"Anthropic 和 Amazon 自己的 Bedrock 服务消耗 Trainium 芯片的速度,已经超过了 Amazon 的生产能力。在这种供不应求的局面下,百万颗 NVIDIA GPU 不是替代品,而是必需品。
百万 GPU 订单不是对 Trainium 的否定票,而是对 AI 算力需求爆炸式增长的直接回应。AWS 无法单靠自研芯片满足所有客户的胃口,它需要 NVIDIA 的产能来填补 Trainium 供应链的时间差。
再者,但软件生态仍是 Trainium 需要持续投入的领域。
AWS 的 Neuron SDK 目前已经走向开源,包括原生 PyTorch 后端、NKI(Neuron Kernel Interface)编译器、以及矩阵乘法和通信库。迁移门槛正在大幅降低:工程总监 Carroll 表示,从 NVIDIA GPU 迁移到 Trainium" 基本上只需要改一行代码,重新编译,然后就能跑 "。这种说法或许有宣传、夸大之嫌,但方向是明确的:AWS 正在系统性地瓦解 CUDA 的护城河。
不过,一个关键限制暴露了成熟度的差距:目前 Neuron SDK 仅支持 Logical NeuronCore(LNC)等于 1 或 2 的配置,LNC=8 的支持要到 2026 年中才能就绪。对于需要更灵活地映射算子到计算单元的前沿模型研究者来说,这意味着 Trainium3 在上市初期还无法完全释放其硬件潜力。
NVIDIA 花了十几年打造 CUDA 生态。从编程模型、编译器、调试工具,到数千个优化过的算子库,再到 PyTorch 和 TensorFlow 的深度集成,这个生态的厚度不是靠一两代芯片就能追平的。但 AWS 正在用一种不同的策略去啃这块硬骨头:不是正面取代 CUDA,而是通过 PyTorch 兼容层和开源生态,让开发者以最低成本尝试 Trainium。谷歌(Google)TPU 走的是另一条路,用封闭生态配合十年不动摇的投入,最终在自有模型(Gemini)上证明了价值。AWS 能否在开源路线上做到同样的坚持,是一个尚待回答的问题。回想曾经的 Apache MxNet, 很难让人建立完全的信任。
网络之战:三条路线的角力
如果说芯片竞争还有迹可循,网络层面的博弈则更加复杂。AWS 现在同时运行着三种不同的高性能互联方案,它们分别服务于不同的场景,但彼此之间存在微妙的竞争关系。
第一条路线:EFA(Elastic Fabric Adapter)。AWS 自研的 scale-out 网络方案,基于 SRD(Scalable Reliable Datagram)协议,最新版本提供每实例 400 Gbps 带宽,深度整合 Nitro 虚拟化层。EFA 的优势在于多租户隔离和 VPC 集成,是 AWS 通用 GPU 实例(如 P5、P6)和 HPC 场景的标准互联。
第二条路线:NeuronLink。Trainium3 的自研 scale-up 互联,基于 PCIe Gen 6 交换架构。每芯片 1.2 TB/s 单向带宽,64 至 144 颗芯片可以组成一个紧耦合的计算域。NeuronLink 的定位类似于 NVIDIA 的 NVLink,但实现路径完全不同。它使用标准 PCIe 协议而非专有协议,牺牲了一定的峰值带宽,换来了供应链的多元化和硬件的现场可升级性。
第三条路线:NVIDIA Spectrum-X。这次交易中最出人意料的元素。Spectrum-X 是 NVIDIA 在 2024 年 3 月 GTC 大会上发布的 AI 专用以太网平台,集交换芯片、智能网卡和数据处理单元于一体,专门为 GPU 集群间的通信模式做了深度优化。官方数据显示其 AI 工作负载性能比传统以太网提升 1.7 倍,支持最多 32,000 颗 GPU 组成的单一集群。
AWS 采购 Spectrum-X,最直接的解读是:对于百万颗 NVIDIA GPU 组成的超大规模集群,EFA 的 scale-out 性能天花板不够高,而 NeuronLink 只服务于 Trainium 芯片。AWS 需要一个能与 NVIDIA GPU 深度配合的网络方案,而在这个领域,没有人比 NVIDIA 自己做得更好。
但还有一层更深的含义。2025 年底,AWS 和 NVIDIA 宣布 Trainium4 将接入 NVIDIA 的 NVLink Fusion 平台,这意味着 AWS 下一代自研芯片的 scale-up 互联将直接使用 NVIDIA 的 NVLink 技术。Spectrum-X 的采购,从这个角度看,是 AWS 开始拥抱 NVIDIA 网络生态的第一步,而不是最后一步。
AWS 正在形成一个分层的网络架构:EFA 负责多租户环境下的通用 scale-out 通信,NeuronLink 服务于 Trainium3 的 scale-up 互联,而 NVIDIA 的网络技术(当前的 Spectrum-X、未来的 NVLink Fusion)则分别为 NVIDIA GPU 集群和 Trainium4 提供高性能互联。这不是三选一,而是各司其职,但是复杂性则不言而喻。不可回避的事实是,NVIDIA 的网络技术在这个架构中扮演的角色越来越重。
Groq 芯片:推理战争的新变量
这笔交易中另一个引人注目的元素是 NVIDIA 的 Groq 芯片。
Groq 原本是一家独立 AI 芯片公司,由前谷歌 TPU 架构师 Jonathan Ross 创立,以超快推理速度闻名。2025 年底,NVIDIA 以 200 亿美元签下非独占技术授权协议,并招揽了 Groq 大部分硬件和软件团队。2026 年 3 月,NVIDIA 正式发布了 Groq 3 LPX 推理加速器。
这款芯片的出现意味着 NVIDIA 正在构建一个 " 训练用 GPU + 推理用 Groq LPU" 的双芯片战略。Ian Buck 的那句 " 七颗芯片 " 论述暗示,NVIDIA 认为未来的 AI 基础设施不再是 GPU 包打天下,而是一个异构的计算矩阵,不同类型的芯片各司其职。
一个有趣的战略对比是,NVIDIA 的方向是 " 异构化 ",用七种不同芯片各司其职,训练归 GPU,推理归 Groq,网络归 Spectrum。而 AWS 恰好走了相反的路:放弃了曾经独立的 Inferentia 推理芯片产品线,把训练和推理统一收归 Trainium 一颗芯片。一个做加法,一个做减法。
但 AWS 也并非只有一张牌。2026 年 3 月,AWS 宣布与 Cerebras Systems 达成合作,将 Cerebras 的推理芯片集成到运行 Trainium 的服务器上,承诺 " 超强低延迟 AI 性能 "。这意味着 AWS 在保持 Trainium 统一性的同时,也在推理层面引入了外部盟友。
NVIDIA 的逻辑是通过专用化榨取每个环节的极致性能。AWS 的逻辑是通过统一化降低软件栈的复杂度和客户的认知负担,同时在推理层面保持灵活的合作策略。
谁对谁错?现在下结论为时过早。但有一点可以确定:推理市场的体量远大于训练(业内估算推理占 AI 计算总量的 70% 以上),这意味着 Trainium 能否在推理侧证明自己,和它在训练侧的表现同样重要。而 TechCrunch 的报道已经给出了部分答案:Trainium2 目前承担着 Amazon Bedrock 服务的大部分推理流量。这不是期许,而是正在发生的事实。只是 Trainium 似乎不是每个人都能接受的选择。
这笔交易的真正买家是谁?
要理解百万 GPU 订单,有一个关键问题必须回答:这一百万颗 GPU 到底是谁在用?
答案可能出乎很多人的意料:大概率不都是给 Anthropic 的。
Amazon 自 2023 年底以来累计向 Anthropic 投资 80 亿美元。到 2026 年 2 月,这笔投资的账面价值已飙升至 606 亿美元,增长了七倍,成为 Amazon 有史以来最赚钱的战略投资之一。2025 年的可转换票据转换为 Amazon 贡献了约 56 亿美元的确认收益,第三季度又录入 72 亿美元的估值上调。
Anthropic 正在以 610 亿(2025 年 3 月)→ 1830 亿(2025 年 9 月)→据报道冲击 3500 亿美元的速度攀升估值,并可能在 2026 年 IPO。
但比财务回报更重要的是产业绑定。Anthropic 已经承诺采购 100 万颗 Trainium 芯片,将这家最具影响力的 AI 实验室之一牢牢绑定在 AWS 的自研芯片生态上。Anthropic 的 Claude 已经运行在超过 100 万颗 Trainium2 芯片上,AWS 自己的 Bedrock 服务也是 Trainium 的重度用户。这些工作负载不需要 NVIDIA GPU,它们已经在 Trainium 上跑得很好了。
百万 GPU 订单的真正驱动力,或许是 2026 年 2 月 AWS 与 OpenAI 签下的 500 亿美元投资协议。作为这笔交易的一部分,AWS 承诺向 OpenAI 提供 2 吉瓦的 Trainium 算力。但 OpenAI 的模型和工作流程高度依赖 NVIDIA CUDA 生态,短期内不可能全部迁移到 Trainium。百万颗 NVIDIA GPU,正是为 OpenAI 的过渡期准备的。
这构成了一个精妙的双层客户策略:Anthropic 已经是 Trainium 的 " 铁杆用户 ",承诺了 100 万颗芯片的采购,证明了自研芯片在前沿模型上的可行性;OpenAI 则是需要用 NVIDIA GPU 先接住、然后逐步引导向 Trainium 迁移的新客户。两条路线服务于不同的客户成熟度。
Amazon 在这两个 AI 巨头身上的投资策略截然不同。对 Anthropic 是 80 亿美元的股权投资(现在账面回报七倍),靠可转换票据在 Anthropic 每一轮融资时自动获得新股,是一笔越滚越大的金融赌注。对 OpenAI 则是 500 亿美元的基础设施投资,用算力换取独家合作关系。一个赚资本增值,一个赚平台锁定,两手都在下注,筹码不可谓不大。
此外,AWS 作为 OpenAI 新 AI 智能体产品 Frontier 的独家提供商,GPU 的供给能力直接关系到这一战略合作的成败。如果 AWS 无法提供充足的 NVIDIA GPU 资源,OpenAI 完全可以把更多工作负载分配到 Azure(微软云)或 Google Cloud。实际上,微软已经就 OpenAI 与 Amazon 的协议是否违反其自身与 OpenAI 的合作条款提出质疑。
真正的棋局:Trainium4 与 NVLink Fusion
如果说百万 GPU 订单是当前的战术动作,那么 Trainium4 的路线图才揭示了 AWS 与 NVIDIA 关系的真实走向。而这个走向,比大多数人预想的更加出人意料。
2025 年 12 月的 re:Invent 大会上,AWS 和 NVIDIA 联合宣布了一项跨代合作:Trainium4 将全面接入 NVIDIA 的 NVLink Fusion 平台。
NVLink Fusion 不是一个简单的互联协议授权。它是 NVIDIA 推出的一套完整的机架级 AI 基础设施方案,专门为超大规模云厂商的自研芯片设计。它允许第三方 ASIC 通过第六代 NVLink 交换机实现 72 颗芯片的全互联,每颗芯片 3.6 TB/s 带宽,整个域的总带宽达到 260 TB/s。
更关键的是,NVLink Fusion 不只是互联,它还包括 NVIDIA 的 OCP MGX 机架架构、Vera CPU、共封装光学交换机、ConnectX SuperNIC 智能网卡、BlueField DPU,以及 Mission Control 管理软件。
这意味着,Trainium4 的 " 自研 " 部分仅仅是计算芯片本身,而它运行的整个基础设施平台,从机架到互联到网络到管理软件,都是 NVIDIA 的产品组合。
这与 SemiAnalysis 早前披露的路线图形成了有趣的对照。SemiAnalysis 提到 Trainium4 同时有 UALink 和 NVLink 两条设计路径。NVLink Fusion 的官方发布证实了 NVLink 路径不仅是真实的,而且走得比任何人预想的都更深。AWS 不是简单地在芯片里集成一个 NVLink 接口,而是把整颗芯片嵌入了 NVIDIA 的系统平台。
这也意味着一个微妙但重要的转折:Trainium3 上耗费大量心血打造的 NeuronLink 自研互联,在 Trainium4 上被 NVLink Fusion 取代了。那套精心设计的三代交换机升级路线、那些通过供应链 warrant 绑定的 PCIe 交换芯片供应商,在 Trainium4 的架构中将不再是核心角色。
NeuronLink 不是失败了,它完成了自己的历史使命:为 Trainium3 提供一个可以快速上市的互联方案,同时为 AWS 争取到与 NVIDIA 谈判 NVLink Fusion 合作条件的筹码和时间。但从工程投入的角度看,NeuronLink 更像是一座临时的便桥,而不是一条大路。
规模变化同样值得关注。Trainium3 液冷版可以组成 144 芯片的全互联域,而 NVLink Fusion 支持的是 72 芯片全互联。数字上看似减半,但每颗芯片的互联带宽从 1.2 TB/s 跃升至 3.6 TB/s,总域带宽达到 260 TB/s。对于大多数前沿模型训练而言,更高的单芯片带宽意味着更少的通信瓶颈,72 颗高带宽芯片的实际性能可能优于 144 颗低带宽芯片。不过,对于那些极度依赖 all-to-all 通信的超大规模 MoE 模型,芯片数量的减少是否会成为瓶颈,仍有待实际部署后验证。
但这也引出了一个尖锐的问题:如果 Trainium4 运行在 NVIDIA 的平台上,那它到底算 " 自研 " 还是 " 半自研 "?
AWS 从中获得的好处很直接:大幅缩短开发周期、降低系统设计风险、获得经过验证的互联性能。NVIDIA 的官方博客直言不讳地写道,NVLink Fusion 能帮助云厂商 " 消除独立开发 scale-up 网络方案的需要 "," 最大限度降低供应商生态的复杂性 "。
NVIDIA 从中获得的好处同样巨大:即使 AWS 用自研芯片替代了 NVIDIA GPU,NVIDIA 依然通过 NVLink 交换机、网卡、DPU 和机架平台获取丰厚的收入。芯片可以换,但基础设施平台的粘性远高于单颗芯片。这是 NVIDIA 的终极商业模式升级:从卖芯片到卖平台。即便客户不用我的 GPU,也要用我的一切其它的东西。
百万 GPU 订单和 NVLink Fusion 合作放在一起看,画面就完整了:短期内,AWS 买 NVIDIA 的 GPU 和网络;长期内,AWS 的自研芯片仍然运行在 NVIDIA 的平台上。无论哪条路线胜出,NVIDIA 都能从中获利。
AWS 当然看得到这一点。它之所以接受这个格局,是因为另一个算盘:如果 Trainium4 在 NVIDIA 平台上成功了,AWS 就拥有了一颗成本由自己控制的计算芯片,即使平台费用要付给 NVIDIA,总体 TCO 仍然优于全部购买 NVIDIA GPU。计算芯片是数据中心成本中占比最大的部分,只要在这一层实现自主,AWS 就能在定价上获得结构性优势。NVIDIA 赚平台的钱,AWS 赚计算的差价,双方各取所需。这是一种理性的利益切割,而非一方对另一方的屈服。
但问题在于:这种 " 各取所需 " 的均衡能维持多久?当 NVIDIA 的平台收入逐渐成为 AWS 不可或缺的基础设施成本时,谈判桌上的力量对比会不会悄然地改变?
一个比 " 投降 " 复杂得多的故事
让我们把视角拉远来看这件事。
最偷懒的解读是:AWS 买了一百万颗 NVIDIA GPU,说明自研芯片失败了。这个叙事简单、有冲击力,但它忽略了太多的事实:140 万颗已部署的 Trainium 芯片、承载 Claude 的百万芯片集群、数十亿美元的营收、80 亿美元投资七倍增值到 606 亿的财务回报,以及 OpenAI 500 亿美元合作中对 Trainium 产能的承诺。
更接近现实的图景可能是这样的:
AWS 正在同时运行三场不同时间尺度的战争。
短期(2025-2026):用 NVIDIA GPU 接住 OpenAI 等 CUDA 生态深度绑定的新客户,同时持续扩大 Trainium2/3 的产能来满足 Anthropic 和 Bedrock 的爆发式需求。这不是在两条路线之间犹豫,而是两条路线都在全速推进。
中期(2026-2028):Trainium3 全面铺开后,用 50% 的成本优势和 MoE 架构优化争夺增量工作负载。144 芯片的 NeuronLink 域、开源的 Neuron SDK、比 NVIDIA 更灵活的机架设计(风冷 / 液冷双版本、可现场升级的交换架构),这些都是差异化的武器。SemiAnalysis 对 Trainium3 的评价是,它为黄仁勋 "yet another front"(又开辟了一条战线),与谷歌 TPUv7 和 AMD MI450X 一起形成多线作战的压力。
长期(2028+):Trainium4 接入 NVLink Fusion 平台,获得 NVIDIA 级别的互联性能,同时保留自研计算芯片的成本和架构灵活性。但这也意味着 AWS 在互联和机架层面对 NVIDIA 的依赖将进一步加深,而非减弱。
这个三层战略的核心逻辑是:不在任何单一时间点与 NVIDIA 的全面对抗,而是在计算芯片层面持续积累自研能力,在互联和平台层面则选择与 NVIDIA 合作而非对抗。
百万 GPU 订单不是投降书,它是 AWS 为接住爆发式增长的 AI 算力需求而必须支付的扩容账单。但 " 自研芯片帝国 " 这个说法本身可能需要做出修正。Trainium4 与 NVLink Fusion 的合作模式表明,AWS 追求的不是全面独立于 NVIDIA,而是在最核心的计算层实现自主可控,其余部分则务实地选择最优方案。
但我们必须诚实地面对一个问题:即便 Trainium 在计算层已经成功,NVLink Fusion 的平台依赖是否会成为新的风险?
成功之后的隐忧
上面描绘的图景比一年前乐观得多。Trainium 已经不再是一个需要证明自己的实验品,它是一台正在全速运转的印钞机。但成功本身也带来了新的战略风险。
第一个隐忧:平台依赖的不可逆性。Trainium4 选择接入 NVLink Fusion,意味着其机架设计、互联协议和管理软件都将深度绑定 NVIDIA 生态。一旦走上这条路,回头的成本极高。从 Trainium3 的全自研互联到 Trainium4 的 NVLink Fusion," 自研 " 的边界在一代产品之间就大幅收缩了。如果这种收缩在 Trainium5、Trainium6 上继续下去,AWS 最终可能只剩下计算 Die 这一个自研环节,其余全部依赖 NVIDIA。那时候," 自研芯片 " 更像是 NVIDIA 平台上的一个可替换模块,而非真正意义上的独立竞争力。
第二个隐忧:供给瓶颈的悖论。King 坦承 " 客户群扩张速度超过了产能交付速度 "。Trainium 的成功反而暴露了产能瓶颈 — 如果 AWS 无法快速扩大自研芯片的产量,它就不得不持续购买 NVIDIA GPU 来填补缺口。这意味着每一笔 NVIDIA 订单都在强化 NVIDIA 的营收和谈判地位,而 Trainium 的成本优势要到产能完全跟上需求之后才能充分兑现。
第三个隐忧:NVIDIA 不会站着等。SemiAnalysis 评价 Trainium3 为黄仁勋开辟了 "yet another front",但这个评价的另一面是:NVIDIA 从来不缺乏在多线作战中获胜的能力。Blackwell 之后是 Rubin,Rubin 之后还有更新的架构。NVIDIA 的研发投入是 AWS 芯片团队的数倍,迭代速度之快有时甚至让自己的客户措手不及。Trainium 在成本上可能有优势,但在绝对性能上能否持续跟上 NVIDIA 的节奏,是一个没有确定答案的问题。
第四个隐忧:双重生态的维护成本。AWS 现在需要同时维护两套完整的 AI 基础设施 — NVIDIA GPU 集群和 Trainium 集群。两套不同的软件栈、两套不同的网络方案、两套不同的运维流程。这种双轨并行的运营复杂度,本身就是一笔巨大的隐性成本。King 说 "Bedrock 可能有一天会像 EC2 一样大 ",但要达到那个规模,AWS 需要在两套基础设施之间做到无缝调度,这远比单一平台的运营困难得多。
而在 AI 基础设施每六个月就更新一代的节奏下,战略上的摇摆比战略上的错误更危险。谷歌走 TPU 路线十年,尽管中间经历了无数质疑,但从未在战略层面动摇,最终用 Gemini 证明了自研芯片的可行性。NVIDIA 走 CUDA 全栈路线二十年,中间 GPU 多次被唱衰,但始终坚持计算与软件一体化的方向。这两家公司的成功有一个共同点:长期战略的一致性。
公允地说,AWS 目前的方向并不是在自研和外购之间反复横跳。" 计算层自研、平台层合作 " 是一个清晰的分工逻辑,而 140 万颗已部署的芯片和数十亿美元的营收证明了执行力。但 Trainium4 拥抱 NVLink Fusion 的决定提醒我们:成功不等于独立。AWS 在计算芯片层面越成功,NVIDIA 在平台层面的不可替代性就越高。
这才是百万 GPU 订单背后最值得深思的信号:它不是自研失败的标志,而是一种新型共生关系的起点。在这种关系中,AWS 掌控计算,NVIDIA 掌控平台,双方共同分割 AI 基础设施的利润池。谁获得更大的份额,取决于接下来几年的博弈。
答案可能就在 AWS 的下一步行动中。2026 年的关键观察指标是:Trainium3 的液冷版能否按时大规模部署、OpenAI 在 Trainium 上的工作负载占比是否稳步上升、Neuron SDK 的开源社区是否出现实质性的外部贡献。如果这些指标持续向好,AWS 就有底气在 Trainium4 的 NVLink Fusion 谈判中争取更有利的条款。如果 Trainium3 产能爬坡不顺、或者 OpenAI 迟迟无法从 NVIDIA GPU 迁移,那么 NVIDIA 在平台层面的议价权只会越来越强。
真正的问题不在于 AWS 是否在买 NVIDIA 的芯片,而在于五年后,AWS 的数据中心里跑的到底是谁的芯片、用的是谁的网络、受制于谁的生态。这场博弈的结局,远未写完。但与一年前相比,AWS 手中的牌已经好了很多。140 万颗已部署的芯片、Anthropic 的百万芯片采购承诺、80 亿美元投资七倍增值到 606 亿美元的财务回报,这些数字不说谎。唯一欠缺的可能就是股价了。
2026 年 3 月 25 日
参考资料
- Yahoo Finance, 2025 年 3 月 ; NVIDIA 确认百万 GPU 交易的原始报道
- Seeking Alpha, 2025 年 3 月 ; Amazon 如何通过 NVIDIA 交易解决 AI 客户需求的分析
- Tae Kim/Substack, 2025 年 3 月 ; Ian Buck 详述七芯片战略和 AWS 合作细节
- Inspirepreneur Magazine, 2025 年 3 月 ; 交易规模和时间线报道
- Research Newspaper, 2025 年 3 月 ; 七种芯片类型和 Groq、Spectrum-X 细节
- SemiAnalysis, 2025 年 ; Trainium3 技术深度分析,包括 N3P 制程、NeuronLink 架构、机架设计、供应链策略及 Trainium4 路线图