" 通过元脑 HC1000 超扩展 AI 服务器,可实现将原先每百万 token 超过 10 元钱,下降到仅 1 元钱的成本。" 浪潮信息首席 AI 战略官刘军与笔者分享了浪潮信息结合用户需求,将算力成本 " 打下去 " 的最新解决方案。
除了成本之外,当 AI 从大模型进入 Agent 时代,甚至从 AGI 向着 ASI 迈进的过程中,实现多 Agent 协同的目标,如何降低响应速度是不可避免的问题,刘军也在与笔者的交流中,分享了浪潮信息在降低通信延迟方面的 AI 算力布局,他表示,通过浪潮信息元脑 SD200 超节点 AI 服务器,可将原本国内最低 15ms 左右的延迟,下降到 8.9ms 左右。
速度决定了 ASI 能否 " 照进现实 "
随着 Scaling Law 持续推动模型能力跃升,以 DeepSeek 为代表的开源模型极大的降低了创新门槛,加速智能体产业化的到来。智能体产业化的核心三要素是能力、速度和成本。其中模型能力决定了智能体的应用上限,交互速度决定了智能体的商业价值,token 成本决定了智能体的盈利能力。
" 速度,是智能体商业化应用落地的第一要义。" 这是在与刘军交流过程中,他反复强调的观点。在智能体商业化应用落地过程中,交互速度是决定其能否在真实场景中发挥价值的首要因素。与传统的 " 人 - 机交互 " 不同,智能体时代的交互本质是 " 智能体 - 智能体 " 之间的高频博弈与协作,任何延迟都可能导致决策失效或机会错失,token 吞吐速度已成为 AI 应用构建的 " 隐形计时器 "。智能体的响应速度不仅影响用户体验,更直接关联商业产出的质量与稳定性。
当前,对于很多企业而言,企业首先面对的就是时延的挑战。IDC 发布的《边缘进化:从核心到边缘驱动成功》中显示,37% 已部署 GenAI 的企业中,超 60% 反馈 " 实时交互类应用响应延迟超预期 "。以电商虚拟试衣间为例,用户上传图像后需等待核心云完成 AI 推理,单次交互延迟常达 2-3 秒,转化率较预期下降 40%。
此外,以典型 API 服务商为例,全球典型的大模型 API 服务商的 DeepSeek 每 token 生成速度,基本维持在 10~20 毫秒左右,而国内的生成速度普遍高于 30 毫秒。要在这一基础上进一步实现更低延迟的 token 生成能力,就必然要求底层算力系统架构、互联协议等关键点上进行创新。
无独有偶,刘军也向笔者表示,速度是实现智能体应用效果的基础保障," 在很多产业实践中,浪潮信息看到有很多场景都有高时效性需求,智能体必须要在极短的时间内完成原本由人执行的任务。" 刘军强调。
比如,股票交易、银行转账风险监测等金融场景下,对于延时的要求往往需要小于 10ms,而目前市面上绝大多数 AI Agent 服务的延时都在 15ms 以上,如果响应过长,可能造成金融机构或者其用户的资产损失。
除了类似金融机构这样对时延要求极高的场景之外,速度也是提升用户体验的关键因素之一。以前文提到的电商场景为例,电商场景下的智能体,如果单次延时在 2~3 秒,转化率下降了 40%," 而这个时候,在其他服务水平都相同的前提下,如果有另外一个平台 / 商家比你快的情况下,消费者很可能就会选择其他商家的服务," 刘军进一步指出," 速度在这种情况下,也就成为了电商企业的商业竞争力。"
此外,刘军告诉笔者,在这些应用场景追求速度的背后,还有一个容易被人忽视的关键——模型的叠加会造成延迟的累积。目前智能体仍处于发展的初期阶段,智能体数量和种类还不算很多," 当互联网上智能体种类和数量不断呈指数级增长之后,如果每个环节的延迟都增加一点的话,到了最后累加起来会发现,应用的延迟是不可接受的," 刘军强调道," 如果延迟不做到足够低的话,智能体就没有商业化的可能性。"
而正是基于此,浪潮信息在近日举办的 AICC 人工智能计算大会上公布了元脑 SD200 超节点 AI 服务器的最新测试数据,据刘军介绍,通过该款超节点 AI 服务器,可以大幅提高 token 的生成速度,以 DeepSeek R1 大模型为例,在元脑 SD200 上,DeepSeek R1 模型的 token 生成速度仅需 8.9 毫秒,创造国内大模型最快 token 生成速度。
谈及元脑 SD200 如何实现如此快的 token 生成速度之时,刘军以告诉车道进行的比喻,他指出,智能体间交互通信的过程中,就好像车辆形式在高速公路上,如果仅仅是高速公路上是 16 车道,而高速入口、出口还是 8 车道的话,即便通信过程越快,还是会在入口、出口的地方产生流量拥堵的情况,而元脑 SD200 要做的就是,将 token 这条高速通信路的入口和出口也打造成 16 车道,确保 token 在通信过程中全程都是 " 高速的 "。
成本:商业化 " 无法逃避 " 的话题
除了速度之外,成本也是让很多企业面对 AI 应用 " 望而却步 " 的关键因素。一方面,AI 推理产生的海量数据回传至核心云,导致带宽成本激增;另一方面,token 的成本也让企业即便有了好的应用场景,做好了数据就绪,并选择好了模型之后,也因为高昂的 token 成本而无力承担智能体应用带来的支出。对此,刘军表示," 成本,尤其是单 token 成本,是影响 Agentic AI 能否实现规模化落地的关键经济因素。"
此外,随着智能体产业化落地进入 " 寒武纪大爆发 " 阶段,商业化场景中智能体数量与 token 消耗量双双攀升。若 token 成本无法控制在合理区间,高频、高并发的实际应用将难以持续。而 token 的成本也成为智能体商业能否实现盈利的关键因素。
以时下最火热的 AI 应用— AI 编程为例,据统计,使用 AI 辅助编程,当前每月消耗 token 数相比 1 年前平均增长了约 50 倍,达到 1000 万到 5 亿 token。
另一方面,据统计,企业每部署一个智能体,平均 token 成本大概 1000-5000 美元。而随着任务复杂度、部署密度以及使用频度的增长,未来五年内 token 消耗预计呈指数级增长。
目前,主流模型在 token 成本方面存在显著差异。以 OpenAI 的 GPT-5 为例,其在处理复杂任务时,输入 token 成本为每百万 1.25 美元,输出 token 为每百万 10.00 美元。这一成本结构在需要高强度交互的智能体商业化场景中,可能成为规模化部署的瓶颈。相比之下,DeepSeek-V3 在推理任务中,输出每百万 token 成本仅为 12 元人民币,展现出更优的经济性,更适合实时响应要求高的商业环境。
这一差异一方面源自模型算法能力的不同,另一方面则取决于底层计算架构的技术路径选择。依赖粗放式算力堆砌的架构会同步推高计算与通信开销,在面对大规模、高并发、长序列的实际生产需求时,其总体拥有成本将难以具备商业可持续性。因此,关键在于构建能够系统化支撑下一代 AI 应用的基础架构,从而将 " 百万 Token 上下文 " 从高成本的技术展示,转化为具备规模化运营可行性的现实能力。
在刘军看来,推理算效低下的根源在于计算过程的特征差异,大模型推理包含多阶段计算,各环节资源需求迥异。
在此背景下,去年兴起的 PD 分离技术成为破局起点," 通过拆分 Prefill(P)与 Decode(D)两个核心阶段,将计算密集型与访存密集型任务解耦,避免资源竞争。" 刘军强调。
与此同时,在刘军看来 PD 分离仅是开端。" 我们正在推进更深度的模块拆解。" 刘军进一步介绍道,在 Decode 阶段,注意力计算与 FFN(前馈神经网络)已实现分离,其中 FFN 模块可进一步拆分专家组件,而注意力层则借鉴 GPT 的混合机制,按算法特征差异拆分处理。这种精细化拆解已实现部分模块算效成倍提升,直接带来显著成本节省。
除此之外,软硬结合的方式也是当前有效降低 token 成本的一种路径,刘军表示,这种 " 解耦 + 适配 " 策略已实现推理成本的数量级降低,为大模型在实时应用、开放式任务等场景的规模化落地扫清了成本障碍。随着混合注意力、专家并行等技术的深化,行业有望在效率与可解释性之间找到更优平衡。
正是基于这种思维方式,浪潮信息推出了元脑 HC1000 超扩展 AI 服务器,通过全面优化降本和软硬协同增效,元脑 HC1000 创新 16 卡计算模组设计、单卡 " 计算 - 显存 - 互连 " 均衡设计,大幅降低单卡成本和每卡系统分摊成本。同时,全对称的系统拓扑设计支持超大规模无损扩展。据刘军介绍,元脑 HC1000 通过算网深度协同、全域无损技术,实现推理性能相比传统 RoCE 提升 1.75 倍,单卡模型算力利用率最高提升 5.7 倍。
当智能体数量即将迎来指数级增长,这种 " 速度 - 成本 - 算效 " 的三角平衡策略,正扫清规模化落地的最后障碍。从 AGI 到 ASI 的演进路上,算力基础设施的创新始终是核心引擎。而计算架构的不断革新正是这个引擎上重要的一环。
(作者|张申宇,编辑丨盖虹达)
更多对全球市场、跨国公司和中国经济的深度分析与独家洞察,欢迎访问 Barron's 巴伦中文网官方网站