APP下载

关于ZAKER

Skills 合作

财联社-深度 39分钟前

不加一块 GPU，多榨出 15% 算力：大模型圈开始对网络“动刀”

《科创板日报》5 月 22 日讯（记者李明明）过去两年，整个行业在算力军备竞赛中的标准动作只有一个：买更多 GPU，建更大集群，堆更高算力。

但现在，这条路径正在被重新审视。

近日，智谱首次公开了一项在生产集群中验证过的架构创新—— ZCube 组网架构。其中一组数据是：GPU 一张没加，服务器一台没换，连应用代码都一行没动，集群推理吞吐直接提升了 15%，TTFT（首 Token 响应时间）P99 尾延迟下降了 40.6%。这些数字是在真实生产流量中跑出来的，不是实验室的仿真推演。

对一家服务上百万开发者的大模型 API 平台来说，这意味着同一套硬件基础设施，每秒能多扛 15% 的并发请求，流量洪峰下的排队等待时间大幅缩短。而 P99 尾延迟的 40% 降幅，直接决定了终端用户感知到的 " 卡顿感 " 能减少多少。

更让行业内部关注的，是成本结构的变化。据智谱披露，ZCube 架构所需的交换机和光模块数量比原有方案少了三分之一。规模越大，这笔节省的绝对值就越可观。在推理需求持续高增长、算力供给整体偏紧的市场里，这种 " 不动硬件、只动组网 " 的效率挖潜，等于是对存量算力资产进行了一次极低成本效率重估。

不是只有智谱一家在抠算力

智谱这次公开的技术细节有限，但核心逻辑已经足够清晰：当集群里数千甚至数万张 GPU 同时处理推理请求，每一次 KV Cache 的跨卡传输、每一次数据同步，都要穿越 GPU 之间的互联网络。这个网络的效率上限，直接决定了 GPU 本身能发挥出多少真实算力。ZCube 的思路，就是从拓扑设计上重新规划这张 " 路网 "，从根源上消除拥塞——而不是等堵了再去疏导。

几乎在同一时间窗口，另一件事让这个方向的判断有了更重的分量。

OpenAI 联合 NVIDIA、AMD、Intel、Microsoft、Broadcom 五大巨头，正式发布了 MRC（多路径可靠连接）网络协议。这是一套面向超大规模 AI 集群的开放网络协议，目前已经部署在 OpenAI 所有最大规模超算集群中，包括位于德克萨斯州 Abilene 的 Oracle 超算和微软 Fairwater 超算，用于训练 ChatGPT 等前沿模型。

两件事放在一起看，指向的判断是一致的：当 GPU 集群从万卡级向十万卡级跃进，网络早已不是那个被动的 " 连接件 "，而是制约整体效率的核心变量。

但它们的技术路径截然不同。MRC 在协议层优化 " 交通规则 "；ZCube 则在架构层重构 " 路网 " ——从拓扑设计上消除拥塞产生的结构性根源。一软一硬，殊途同归。

如果把视野拉开，会发现 " 不堆硬件、从基础设施和系统架构里挖效率 " 这件事，正在逐渐成为行业的微妙转向。

从硬件侧看，NVIDIA 最新一代 Blackwell Ultra 架构，通过 NVFP4 精度格式和注意力层加速，在 DeepSeek-R1 推理任务上吞吐量达到基础版 GB200 的约数倍。Google 推出的第七代 TPU Ironwood，单芯片训练推理性能比前代 Trillium 提升超 4 倍。

从芯片创业公司看，一批专门为推理设计的非 GPU 架构也在加速渗透。主攻超低延迟的 Groq，其 LPU 在 Llama 2 70B 上跑出了每秒 300 个 token 的速度，比 H100 集群快 10 倍。晶圆级芯片公司 Cerebras 则声称，其推理速度在多项测试中超越了 NVIDIA Blackwell。

从模型架构本身看，通义千问的 Qwen3-Next 通过混合注意力机制和高稀疏 MoE 设计，将训练成本压缩到此前的十分之一以下，推理上下文吞吐量提升超 10 倍。DeepSeek 推出的稀疏注意力技术，使得新版模型长文本推理速度比前代快 2 到 3 倍，API 调用成本几乎砍半。

这些探索有一个共同特征：它们都不再依赖 " 买更多卡 " 这个唯一的杠杆，而是在现有算力存量和有限新增投入中寻找更大的产出倍数。

当 " 买卡 " 不再是唯一答案

这场从 " 堆硬件 " 向 " 挖效率 " 的转向，正在对上游供应链产生实质影响。

最直接的变量来自网络设备端。ZCube 方案实现交换机与光模块用量减少三分之一，MRC 协议推动两层交换机组网替代传统三到四层架构——两者叠加，意味着 AI 集群的采购逻辑将发生结构性调整：对高端交换机的需求将从 " 更多层级 " 转向 " 更少层级、更大端口密度 "，光模块则加速向 800G 及以上速率集中。

事实上，市场数据已经在验证这个趋势。据 LightCounting 统计，2025 年 800G 光模块出货量同比翻倍，1.6T 光模块开始出货；预计 2026 年 800G 出货量将继续翻倍，1.6T 将从 2025 年的小基数跃升至数千万端口量级。

从资本市场的视角看，AI 网络基础设施正在从万卡集群的 " 配套工程 " 升级为产业链的核心价值环节。有机构预测，2026 年数据中心交换机总销售额将同比增长 86%。谷歌、亚马逊、微软和 Meta 四大云厂商 2026 年合计资本支出计划高达数千亿美元。叠加 MRC 协议推动以太网在超算集群中加速替代 InfiniBand 的长期趋势，800G/1.6T 光模块产业链、高密度以太网交换机及相关芯片、连接器环节，正在进入一个需求结构重塑的窗口期。

北京计算机学会 AI 专委会秘书长、北京大学特聘研究员张有鱼告诉《科创板日报》记者，把时间轴拉长来看，智谱这次公开的 ZCube 实践，放在行业大背景中有两层含义。

第一层是技术层面的，它用真实生产数据验证了一件事——在千卡乃至万卡集群中，网络架构本身可以成为一个独立的效率杠杆，且边际改造成本极低。当全行业都在 GPU 采购上烧钱时，这种 " 四两拨千斤 " 的效率挖潜，显然比再下一笔芯片订单更具性价比。

第二层是商业层面的，对于手握大量 GPU 存量的平台型公司，硬件折旧是固定成本，谁能从既有资产中榨出更多 Token 产出，谁就能在 API 价格持续下探的市场里拉大成本优势。智谱的 15% 吞吐提升和三分之一的网络硬件节省，放在百万级并发请求的规模下，对应的是一笔相当可观的运营成本优化。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

企业资讯

查看更多内容

Blockchain News

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

不加一块 GPU，多榨出 15% 算力：大模型圈开始对网络“动刀”

宙世代

一起剪

相关阅读

SpaceX的IPO申报，正在带动Rocket Lab、CoreWeave及其他股票上涨

PCB概念再度走强 鹏鼎控股涨停续创历史新高

竞价看龙头

SpaceX上市招股书曝光！航空航天ETF天弘（159241）昨日获净申购近2000万份，换手率超11%为同标的第一

美国政府推动量子战略升级 SpaceX计划五年内实现每年1万次发射

美联储新主席沃什今日宣誓就职 蔚来一季度净亏损同比大幅收窄

利空共振银价急跌 机构认为短期上行阻力较大

全球流动性收紧预期升温 资产配置应更重视抗波动能力

融合要从“我中有你”变成“我就是你”

美联储鹰爪愈发锋利 通胀风暴下加息压力急剧升温

350亿市值券商 押中存储“双子星”

ESG步入战略核心，中国企业如何补上最缺的“叙事课”？

Bloom Energy暴涨10%刷新历史新高 与欧洲AI基础设施新锐达成26亿美元合作

和讯信息钟凯锋：结构性分化行情仍是市场长期主线

中信银行：同意聘任吕天贵为行长

最新评论

财联社

热门推荐

企业资讯

PCB概念再度走强鹏鼎控股涨停续创历史新高

美联储新主席沃什今日宣誓就职蔚来一季度净亏损同比大幅收窄

利空共振银价急跌机构认为短期上行阻力较大

全球流动性收紧预期升温资产配置应更重视抗波动能力

美联储鹰爪愈发锋利通胀风暴下加息压力急剧升温

350亿市值券商押中存储“双子星”

Bloom Energy暴涨10%刷新历史新高与欧洲AI基础设施新锐达成26亿美元合作