在不久前的 2025 世界人工智能大会(WAIC)上,这股转型浪潮尤为明显。展馆一层,华为昇腾 384 超节点 " 算力核弹 " 真机坐镇,为应用提供底座能力的 AI 芯片、服务器、智算中心也密集亮相。而硬件的 " 繁荣 " 背后,笔者在现场见到的北京超级云计算中心(以下简称 " 北京超算 ")总经理吴迪,却道出了一个更加深刻的行业变化逻辑。
" 北京超算用 14 年时间,验证了超算中心商业化路径的可行性。" 吴迪介绍到。作为专注高性能计算领域 15 年的中国计算机学会理事,她也从个人视角向笔者介绍了本届大会的深层变化:今年 WAIC产业链上下游完备度显著提升,垂直领域企业密集入场,垂类大模型呈现爆发态势。这一切,都在倒逼算力服务市场的逻辑重构。
算力服务市场固有的" 需求牵引 " 特性在当下格外突出。垂类场景爆发,正促使企业开始用最终的业务结果而非 FLOPS 数值来丈量算力价值。落地到具体实践中,衡量标准则回归 " 成本 " 与 " 质量 " ,它们构成了当下企业评估算力服务价值的核心标尺。
" 纯算力本身并不会产生价值 "
垂直领域模型密集落地背后,是算力正从训练向应用场景扩散。据麦肯锡 2024 年 6 月报告,44% 的中国企业已进入大模型测试或试点阶段;IDC 同期调研亦显示,约 42% 企业正推进大模型概念验证(PoC)。与此同时,不免回顾起近两年的中国算力市场变化,吴迪印象最为深刻的则是作为导火索的 " 供需关系 "。
2022 年底,ChatGPT 的发布引爆全球 AI 热潮,在需求端,大模型竞赛推动算力 " 军备赛 ",BAT、字节等中国互联网巨头及百川智能、中科闻歌等创业公司均密集启动大模型项目,算力需求一度呈 " 十倍级增长 "。而除训练外,大模型落地应用催生推理算力需求,游戏、金融、医疗等行业加速 AI 化,进一步推高算力消耗。
反观当时的供给端,芯片禁令与产能瓶颈产生双重夹击,国产替代也尚处爬坡期,加剧市场供不应求状态,由此引起的算力价格飙升甚至倒逼了 " 恐慌性采购 " 等市场扭曲行为。2023 年左右,中国算力市场出现的 " 供不应求、抢购为先 " 现象,是多重因素叠加作用的结果。
"那时的企业秉持着‘能用就行’的态度抢抓算力,很少有企业会关注算力服务。但纯算力本身并不会产生价值,它最终还是要延伸到服务层来。" 吴迪直言,算力其实具备一定的 " 工具属性 "。
简单来讲,若算力是 " 原材料 ",那么服务就是 " 加工厂 "。英伟达 H100 显卡的原始算力达 1979 TFLOPS,但若仅堆砌硬件而不结合 CUDA 优化、分布式调度框架(如 NCCL),其实际训练效率可能不足理论值的 30%。但叠加服务层,通过算法优化、任务编排、故障自愈等能力,就可以将裸算力转化为可用、稳定、高性价比的 AI 生产力。
如今算力市场也走向内卷,据吴迪观察,企业对算力的要求从 " 可用 " 转向 " 好用 "。虽不排除有大型企业愿意花一些时间自己搭建服务,但有这种能力的企业仅仅是少数,对于常规企业用户来说,最终还是要走到算力服务这一侧。
" 我们服务的客户包括研究所,他们的主要任务是做科研成果的创新,它需要更多关注自己本身的业务,怎么把模型做的更快发布、更好用?那么底层的算力只是一个手段、一个工具,他们只需要考虑谁能提供一个既可用又好用的工具。" 吴迪进一步举例。
算力模式走向 " 价值服务 "
怎样才算好用的算力?对于企业来说,其关心的则是最单纯的 " 成本 " 与 " 质量 " 问题,二者相互影响,构成了企业衡量算力服务价值的核心标的。
然而目前,一个不容忽视的现象是,许多企业在衡量算力成本方面还存在认识误区。并行科技 AI 云事业部总经理赵鸿冰指出," 利用率 " 是企业衡量算力建设成本的一个关键指标。
" 许多企业自己在进行算力建设时往往是按照 100% 的利用率去算的,但实际使用状况并不乐观。" 据赵鸿冰观察:" 并行科技在 2015 年左右的时候曾推出一个叫 OITS(在线 IT 服务)的业务,那时我们服务了全国 300 多套大中小级别的集群,但反观这几年服务的结果,这些集群平均的利用率不到 30%,甚至有些非常低的只有百分之十几的利用率,用 100% 的利用率指标和实际利用率进行换算,其实成本至少差着大约一个数量级。"
除此之外,市场上还存在大量 " 资源错配 " 情形,资金充裕的企业盲目囤积高端芯片却业务简单,导致资源严重浪费;而资金有限的企业又因贪图便宜采购低性能算力,最终拖累业务效率。
这些情况都反应了当下企业获取算力时的 "踩雷点":即对自身业务状况与业界状态缺乏清晰的认知,并未找到真实的业务需求进行算力匹配。
算力服务市场是很典型的 " 需求牵引 " 市场,如今,垂类场景爆发也在重构算力服务市场逻辑:越来越多的企业开始用业务结果而非 TFLOPS 数值丈量算力价值。为了尽可能避免不合理的设计与资源浪费,类似 " 专家服务 " 的算力服务模式应运而生。
据吴迪介绍,为解决这一问题,北京超算拆解完整的专家服务工作流程,第一步就是进行企业需求诊断与深度的业务交流,再根据不同业务场景推进资源选型与架构设计。"合理的选型是质量保障的第一步,如果选型出错,后面一系列的事情花多少时间效率都会比较差。" 吴迪强调道。
以 PixArt AI 模型为例,北京超算运用了应用运行特征分析的方法,了解程序在业务场景下算力集群各个算力组件的性能发挥情况,同时定位性能关键指标与性能依赖,帮助企业实现算力资源的精准选型。据北京超算 CTO 甄亚楠介绍,为持续降低企业的业务成本,北京超算目前也已整合北京怀柔、宁夏中卫、内蒙古和林格尔等国家 " 东数西算 " 节点的算力资源,以提供弹性、稳定且高效的算力服务。
在选型完成之后,企业还需要有安全稳定可靠的基础服务的保障。包括对业务运行过程的实时监控与数据分析,以及时定位算力瓶颈,进行部署优化与性能调优,提升模型运行效率;此外,还要有针对突发问题的及时响应,对问题严重性进行分层级处理,提供专家部署支持和动态扩容机制。
不过依据每个企业自身状况,赵鸿冰也提出建议,企业自己搭建服务并非不可取,算力服务的发展也并不一定要求所有企业都到公有云上来,企业还是要结合自己的业务情况合理配置。比如业务达到了一定的规模时,会拉低算力建设各个方面的边际成本,企业就可以根据自身业务体量设置出一些基本的算力来保障日常业务;当有突发算力需求时,再结合到公有云上来,形成一种混合云的形态。这样能更好的满足企业的业务需求,更好的实现降本。(本文首发钛媒体 APP 作者 | 贾雨微)