
但现在,这条路径正在被重新审视。
近日,智谱首次公开了一项在生产集群中验证过的架构创新—— ZCube 组网架构。其中一组数据是:GPU 一张没加,服务器一台没换,连应用代码都一行没动,集群推理吞吐直接提升了 15%,TTFT(首 Token 响应时间)P99 尾延迟下降了 40.6%。这些数字是在真实生产流量中跑出来的,不是实验室的仿真推演。
对一家服务上百万开发者的大模型 API 平台来说,这意味着同一套硬件基础设施,每秒能多扛 15% 的并发请求,流量洪峰下的排队等待时间大幅缩短。而 P99 尾延迟的 40% 降幅,直接决定了终端用户感知到的 " 卡顿感 " 能减少多少。
更让行业内部关注的,是成本结构的变化。据智谱披露,ZCube 架构所需的交换机和光模块数量比原有方案少了三分之一。规模越大,这笔节省的绝对值就越可观。在推理需求持续高增长、算力供给整体偏紧的市场里,这种 " 不动硬件、只动组网 " 的效率挖潜,等于是对存量算力资产进行了一次极低成本效率重估。
不是只有智谱一家在抠算力
智谱这次公开的技术细节有限,但核心逻辑已经足够清晰:当集群里数千甚至数万张 GPU 同时处理推理请求,每一次 KV Cache 的跨卡传输、每一次数据同步,都要穿越 GPU 之间的互联网络。这个网络的效率上限,直接决定了 GPU 本身能发挥出多少真实算力。ZCube 的思路,就是从拓扑设计上重新规划这张 " 路网 ",从根源上消除拥塞——而不是等堵了再去疏导。
几乎在同一时间窗口,另一件事让这个方向的判断有了更重的分量。
OpenAI 联合 NVIDIA、AMD、Intel、Microsoft、Broadcom 五大巨头,正式发布了 MRC(多路径可靠连接)网络协议。这是一套面向超大规模 AI 集群的开放网络协议,目前已经部署在 OpenAI 所有最大规模超算集群中,包括位于德克萨斯州 Abilene 的 Oracle 超算和微软 Fairwater 超算,用于训练 ChatGPT 等前沿模型。
两件事放在一起看,指向的判断是一致的:当 GPU 集群从万卡级向十万卡级跃进,网络早已不是那个被动的 " 连接件 ",而是制约整体效率的核心变量。
但它们的技术路径截然不同。MRC 在协议层优化 " 交通规则 ";ZCube 则在架构层重构 " 路网 " ——从拓扑设计上消除拥塞产生的结构性根源。一软一硬,殊途同归。
如果把视野拉开,会发现 " 不堆硬件、从基础设施和系统架构里挖效率 " 这件事,正在逐渐成为行业的微妙转向。
从硬件侧看,NVIDIA 最新一代 Blackwell Ultra 架构,通过 NVFP4 精度格式和注意力层加速,在 DeepSeek-R1 推理任务上吞吐量达到基础版 GB200 的约数倍。Google 推出的第七代 TPU Ironwood,单芯片训练推理性能比前代 Trillium 提升超 4 倍。
从芯片创业公司看,一批专门为推理设计的非 GPU 架构也在加速渗透。主攻超低延迟的 Groq,其 LPU 在 Llama 2 70B 上跑出了每秒 300 个 token 的速度,比 H100 集群快 10 倍。晶圆级芯片公司 Cerebras 则声称,其推理速度在多项测试中超越了 NVIDIA Blackwell。
从模型架构本身看,通义千问的 Qwen3-Next 通过混合注意力机制和高稀疏 MoE 设计,将训练成本压缩到此前的十分之一以下,推理上下文吞吐量提升超 10 倍。DeepSeek 推出的稀疏注意力技术,使得新版模型长文本推理速度比前代快 2 到 3 倍,API 调用成本几乎砍半。
这些探索有一个共同特征:它们都不再依赖 " 买更多卡 " 这个唯一的杠杆,而是在现有算力存量和有限新增投入中寻找更大的产出倍数。
当 " 买卡 " 不再是唯一答案
这场从 " 堆硬件 " 向 " 挖效率 " 的转向,正在对上游供应链产生实质影响。
最直接的变量来自网络设备端。ZCube 方案实现交换机与光模块用量减少三分之一,MRC 协议推动两层交换机组网替代传统三到四层架构——两者叠加,意味着 AI 集群的采购逻辑将发生结构性调整:对高端交换机的需求将从 " 更多层级 " 转向 " 更少层级、更大端口密度 ",光模块则加速向 800G 及以上速率集中。
事实上,市场数据已经在验证这个趋势。据 LightCounting 统计,2025 年 800G 光模块出货量同比翻倍,1.6T 光模块开始出货;预计 2026 年 800G 出货量将继续翻倍,1.6T 将从 2025 年的小基数跃升至数千万端口量级。
从资本市场的视角看,AI 网络基础设施正在从万卡集群的 " 配套工程 " 升级为产业链的核心价值环节。有机构预测,2026 年数据中心交换机总销售额将同比增长 86%。谷歌、亚马逊、微软和 Meta 四大云厂商 2026 年合计资本支出计划高达数千亿美元。叠加 MRC 协议推动以太网在超算集群中加速替代 InfiniBand 的长期趋势,800G/1.6T 光模块产业链、高密度以太网交换机及相关芯片、连接器环节,正在进入一个需求结构重塑的窗口期。
北京计算机学会 AI 专委会秘书长、北京大学特聘研究员张有鱼告诉《科创板日报》记者,把时间轴拉长来看,智谱这次公开的 ZCube 实践,放在行业大背景中有两层含义。
第一层是技术层面的,它用真实生产数据验证了一件事——在千卡乃至万卡集群中,网络架构本身可以成为一个独立的效率杠杆,且边际改造成本极低。当全行业都在 GPU 采购上烧钱时,这种 " 四两拨千斤 " 的效率挖潜,显然比再下一笔芯片订单更具性价比。
第二层是商业层面的,对于手握大量 GPU 存量的平台型公司,硬件折旧是固定成本,谁能从既有资产中榨出更多 Token 产出,谁就能在 API 价格持续下探的市场里拉大成本优势。智谱的 15% 吞吐提升和三分之一的网络硬件节省,放在百万级并发请求的规模下,对应的是一笔相当可观的运营成本优化。