APP下载

关于ZAKER

合作

钛媒体 2小时前

全球推理计算量暴涨一万倍背后

文 | 深流研究所，作者 | 绛枫

站在 GTC 2026 的主舞台上，黄仁勋抛出了一句几乎可以定义这轮 AI 产业变化的论断—— " 推理的拐点已经到来。"

他随即给出了一组更有分量的数字：过去两年，AI 推理的计算量增长了约一万倍，使用量增长了约一百倍。Openclaw 在全球范围内的爆发，又进一步放大了这一趋势。

当 AI 从聊天框走进真实工作流，开始自主拆解、规划、执行任务。推理就从一次回答，变成持续消耗、持续结算、持续优化的生产过程。

过去，衡量模型输出长度、上下文容量的单位 token ，也变成了 AI 产业链真正的流通单位。英伟达在为 token 高效吞吐设计芯片和软件栈，阿里在为 Token 组织业务和定价逻辑，OpenAI 在为 " 如何少花 token 完成更多思考 " 重做系统。

更深层的变化还在发生。AI 产业已经不再只是基于 " 更强的模型 " 展开，而是围绕 " 更高效的推理 " 重构。

推理成为芯片性能的新锚点

英伟达的动作便是有力佐证。GTC 2026 上让行业震动的，不是又一款更强的训练 GPU，而是两个专门针对推理的产品。

Groq 3 LPU ——英伟达通过技术许可协议引入 Groq 推理技术后推出的语言处理专用芯片。注意，这不是 GPU。LPU 的核心设计取舍是：牺牲训练性能，换取推理场景下的极致吞吐和极低延迟。单芯片拥有 500saMB 片上 SRAM，内存带宽 150TB/s，专攻 token 生成环节。与 Vera Rubin GPU 协同，将推理吞吐量从当下的每秒 100 token 推向 1500+ ——一个数量级的提升。

Vera Rubin 平台——台积电 3nm 制程，推理性能较上一代 Blackwell 提升 5 倍，训练性能提升 3.5 倍。注意优先级：推理提升幅度远超训练。配套发布的 Dynamo 开源推理框架，通过分离式推理、KV-Cache 智能路由等技术，在大规模集群上可使 DeepSeek-R1 等模型的吞吐量提升 30 倍以上。

一家以训练芯片起家的公司，把最重磅的发布留给了 " 推理 "。方向已经很清楚了。

模型追求用更少的 Token，做更难的事

模型研发的方向同样指向推理效率。

去年底，DeepSeek V3.2 是一个标志性节点——这是该公司旗下首个将 " 思考 " 融入工具调用的开源模型，Agent 基准测试成绩最高。官方明确表示，V3.2 的核心设计目标是 " 平衡推理能力与输出长度 "，也就是用更少的 Token，完成更复杂的推理。

梁文锋近半年署名的两篇论文，一篇做 " 条件记忆 "，一篇优化底层架构，都在解决同一个瓶颈：Transformer 在记忆、稳定性和长上下文上的局限——而这些，恰恰是 Agent 场景下推理效率的核心卡点。据多方消息，即将于 4 月发布的 V4，核心突破方向包括长期记忆和多模态。技术路线始终指向同一个问题：如何让模型在 Agent 场景下更高效地 " 思考 "。

OpenAI 的路径类似但更激进。其在 GPT-5 系列之后，最核心的升级不是参数堆叠，而是将快速响应、深度推理和实时路由器整合进一个统一系统——根据任务复杂度，自动决定 " 花多少 Token 来思考 "。简单问题浅层推理，复杂问题深层推理链。这背后是对推理成本的精算，也是对 Agent 大规模部署的提前布局。

电有瓦特，数据有比特，AI 有 TokeAI 时代

训练时代的云服务模式简单——按 GPU 小时计费，本质是 " 租设备 "。

推理时代完全不同。一个部署在全球的 Agent 服务，调用量可能在工作时段飙升十倍，凌晨又跌至谷底。这种极端的波动性催生了全新的计价方式：按 Token 计费、按请求计费、甚至按 "Agent 任务 " 计费。

阿里巴巴的动作最具信号意义。GTC 2026 开幕同日，阿里宣布成立 Alibaba Token Hub（ATH）事业群，由集团 CEO 吴泳铭直接挂帅，平行于阿里云和电商事业群。旗下囊括通义实验室、千问、悟空等核心 AI 业务，组织目标被提炼为三句话：创造 Token、输送 Token、应用 Token。

这是一个清晰的判断：Token 将扮演类似电力在工业时代的角色——基础性的、持续消耗的、可以被计量和交易的资源。云服务的竞争，正在从 " 谁的 GPU 多 " 变成 " 谁的 Token 更便宜、更快、更稳 "。

编排智能体的能力，成为新的应用护城河

Token 经济学不仅改变了基础设施，也在重塑应用开发的底层逻辑。

最显著的变化是推理路由的普及。简单交互交给低成本小模型，复杂推理流转至大模型——开发者不再只是 " 调一个 API"，而是要设计一套精密的路由策略，在成本和效果之间找到最优解。OpenRouter 这类模型路由平台的崛起，正是这一趋势的产物。

更深层的变化在于：一个好的 Agent 应用，本质上是一套智能体编排系统。它决定哪些任务用什么模型、交给哪些 Agent、走什么路径、在哪个节点做决策。编排能力本身，正在成为这一轮竞争中最核心的壁垒。

这个逻辑已经在产品层面落地。Anthropic 公开的多智能体架构中，一个 Claude Opus 4 担任 " 主管 "，多个 Claude Sonnet 4 充当 " 执行者 "，系统性能比单用 Opus 4 高出 90%。微软 Copilot Studio、Salesforce Agentforce 也在押注同一件事——让企业用户自己编排智能体工作流。

腾讯最新财报会上，马化腾也表达了类似判断：AI 的入口不应该只是聊天机器人，未来每个小程序都可以智能化改造，通过 API 完成调用——本质上，是把产品矩阵变成一张可编排的智能体网络。

过去三年，AI 行业争夺的是 " 谁能训练出更强的模型 "，接下来竞争的核心，更可能变成：谁能把推理做得更便宜、更快、更可控。

芯片在为 token 吞吐重写架构，模型在为更少 token 完成更复杂任务重做系统，云厂商开始直接经营 token，应用层则把胜负手押在智能体编排。

推理，不再只是模型输出前的最后一步，而是正在成为整个 AI 产业的新定价单位。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

企业资讯

查看更多内容

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

全球推理计算量暴涨一万倍背后

宙世代

一起剪

相关阅读

双标测试实锤？华硕骁龙X2对决苹果M5被指不公平

配置反转、价格倒挂：iPad Air 还是 MacBook Neo，到底选谁？

闪迪全新SSD品牌Optimus中文名定了：奥丁马仕 国内6月上市

微信官宣电脑版三大新功能：语音输入、一键撤回、视频倍速来了

“网易用AI清退全部外包”传闻背后的行业焦虑

感受下！中国无人机已进化到这种程度了：仿鹰、仿鸽、仿蝴蝶、仿甲虫…

小米史上最强！米家扫拖机器人6 Max开售：4999元起

Intel最低端Arrow Lake首次现身跑分！酷睿Ultra 3 205T单核竟超225T

CPU、显卡这波稳了 AMD获得DDR、HBM内存供应大单

中文在线，“烧钱”不止

全球首款16TB M.2 SSD诞生：“只”要11万元！

14亿人的生活要变样了！腾讯回应打造微信AI智能体：联通小程序社交支付 合作方可受益

一场AI算力革命，逼出“红色石油”铜的指数级增长

日企行业霸主强势提价35%，又一个“超级周期”来了？

最新评论

钛媒体

热门推荐

企业资讯

热门订阅 换一批

AI价值官

闪迪全新SSD品牌Optimus中文名定了：奥丁马仕国内6月上市

14亿人的生活要变样了！腾讯回应打造微信AI智能体：联通小程序社交支付合作方可受益

热门订阅换一批