文 | 深流研究所,作者 | 绛枫
站在 GTC 2026 的主舞台上,黄仁勋抛出了一句几乎可以定义这轮 AI 产业变化的论断—— " 推理的拐点已经到来。"
他随即给出了一组更有分量的数字:过去两年,AI 推理的计算量增长了约一万倍,使用量增长了约一百倍。Openclaw 在全球范围内的爆发,又进一步放大了这一趋势。
当 AI 从聊天框走进真实工作流,开始自主拆解、规划、执行任务。推理就从一次回答,变成持续消耗、持续结算、持续优化的生产过程。
过去,衡量模型输出长度、上下文容量的单位 token ,也变成了 AI 产业链真正的流通单位。英伟达在为 token 高效吞吐设计芯片和软件栈,阿里在为 Token 组织业务和定价逻辑,OpenAI 在为 " 如何少花 token 完成更多思考 " 重做系统。
更深层的变化还在发生。AI 产业已经不再只是基于 " 更强的模型 " 展开,而是围绕 " 更高效的推理 " 重构。
推理成为芯片性能的新锚点
英伟达的动作便是有力佐证。GTC 2026 上让行业震动的,不是又一款更强的训练 GPU,而是两个专门针对推理的产品。
Groq 3 LPU ——英伟达通过技术许可协议引入 Groq 推理技术后推出的语言处理专用芯片。注意,这不是 GPU。LPU 的核心设计取舍是:牺牲训练性能,换取推理场景下的极致吞吐和极低延迟。单芯片拥有 500saMB 片上 SRAM,内存带宽 150TB/s,专攻 token 生成环节。与 Vera Rubin GPU 协同,将推理吞吐量从当下的每秒 100 token 推向 1500+ ——一个数量级的提升。
Vera Rubin 平台——台积电 3nm 制程,推理性能较上一代 Blackwell 提升 5 倍,训练性能提升 3.5 倍。注意优先级:推理提升幅度远超训练。配套发布的 Dynamo 开源推理框架,通过分离式推理、KV-Cache 智能路由等技术,在大规模集群上可使 DeepSeek-R1 等模型的吞吐量提升 30 倍以上。
一家以训练芯片起家的公司,把最重磅的发布留给了 " 推理 "。方向已经很清楚了。
模型追求用更少的 Token,做更难的事
模型研发的方向同样指向推理效率。
去年底,DeepSeek V3.2 是一个标志性节点——这是该公司旗下首个将 " 思考 " 融入工具调用的开源模型,Agent 基准测试成绩最高。官方明确表示,V3.2 的核心设计目标是 " 平衡推理能力与输出长度 ",也就是用更少的 Token,完成更复杂的推理。
梁文锋近半年署名的两篇论文,一篇做 " 条件记忆 ",一篇优化底层架构,都在解决同一个瓶颈:Transformer 在记忆、稳定性和长上下文上的局限——而这些,恰恰是 Agent 场景下推理效率的核心卡点。据多方消息,即将于 4 月发布的 V4,核心突破方向包括长期记忆和多模态。技术路线始终指向同一个问题:如何让模型在 Agent 场景下更高效地 " 思考 "。
OpenAI 的路径类似但更激进。其在 GPT-5 系列之后,最核心的升级不是参数堆叠,而是将快速响应、深度推理和实时路由器整合进一个统一系统——根据任务复杂度,自动决定 " 花多少 Token 来思考 "。简单问题浅层推理,复杂问题深层推理链。这背后是对推理成本的精算,也是对 Agent 大规模部署的提前布局。
电有瓦特,数据有比特,AI 有 TokeAI 时代
训练时代的云服务模式简单——按 GPU 小时计费,本质是 " 租设备 "。
推理时代完全不同。一个部署在全球的 Agent 服务,调用量可能在工作时段飙升十倍,凌晨又跌至谷底。这种极端的波动性催生了全新的计价方式:按 Token 计费、按请求计费、甚至按 "Agent 任务 " 计费。
阿里巴巴的动作最具信号意义。GTC 2026 开幕同日,阿里宣布成立 Alibaba Token Hub(ATH)事业群,由集团 CEO 吴泳铭直接挂帅,平行于阿里云和电商事业群。旗下囊括通义实验室、千问、悟空等核心 AI 业务,组织目标被提炼为三句话:创造 Token、输送 Token、应用 Token。
这是一个清晰的判断:Token 将扮演类似电力在工业时代的角色——基础性的、持续消耗的、可以被计量和交易的资源。 云服务的竞争,正在从 " 谁的 GPU 多 " 变成 " 谁的 Token 更便宜、更快、更稳 "。
编排智能体的能力,成为新的应用护城河
Token 经济学不仅改变了基础设施,也在重塑应用开发的底层逻辑。
最显著的变化是推理路由的普及。简单交互交给低成本小模型,复杂推理流转至大模型——开发者不再只是 " 调一个 API",而是要设计一套精密的路由策略,在成本和效果之间找到最优解。OpenRouter 这类模型路由平台的崛起,正是这一趋势的产物。
更深层的变化在于:一个好的 Agent 应用,本质上是一套智能体编排系统。它决定哪些任务用什么模型、交给哪些 Agent、走什么路径、在哪个节点做决策。编排能力本身,正在成为这一轮竞争中最核心的壁垒。
这个逻辑已经在产品层面落地。Anthropic 公开的多智能体架构中,一个 Claude Opus 4 担任 " 主管 ",多个 Claude Sonnet 4 充当 " 执行者 ",系统性能比单用 Opus 4 高出 90%。微软 Copilot Studio、Salesforce Agentforce 也在押注同一件事——让企业用户自己编排智能体工作流。
腾讯最新财报会上,马化腾也表达了类似判断:AI 的入口不应该只是聊天机器人,未来每个小程序都可以智能化改造,通过 API 完成调用——本质上,是把产品矩阵变成一张可编排的智能体网络。
过去三年,AI 行业争夺的是 " 谁能训练出更强的模型 ",接下来竞争的核心,更可能变成:谁能把推理做得更便宜、更快、更可控。
芯片在为 token 吞吐重写架构,模型在为更少 token 完成更复杂任务重做系统,云厂商开始直接经营 token,应用层则把胜负手押在智能体编排。
推理,不再只是模型输出前的最后一步,而是正在成为整个 AI 产业的新定价单位。