华为云算力再迎重大突破!
刚刚落幕的华为全联接大会 2025,一系列新进展发布——
AI 算力云服务升级,基于华为云刚刚发布的最新 AI 服务器规划,CloudMatrix 的云上超节点规格将从 384 卡升级到未来的 8192 卡。依托 MatrixLink 高速对等互联网络结合多网合一技术,实现百万卡的超大集群,为智能时代提供更澎湃的 AI 算力。
首创 EMS 弹性内存存储服务,大幅降低多轮对话时延。
华为云 Tokens 服务正式接入 CloudMatrix384 超节点,打造极致性能的 Tokens 服务体验。
2025 年 4 月,CloudMatrix384 超节点发布并商用,在芜湖数据中心规模化上线;
2025 年 6 月,基于 CloudMatrix384 超节点的新一代昇腾 AI 云服务全面上线;
2025 年 9 月,Tokens 服务全面接入 CloudMatrix384 超节点,有效屏蔽复杂的底层技术实现,直接为用户提供最终的 AI 计算结果。
现阶段,AI 行业内依旧被算力焦虑笼罩。硅谷大厂近期在算力、芯片领域动作频频:
OpenAI 一边和博通自研 AI 芯片,一边向甲骨文抛出 3000 亿美元买算力;马斯克百天建成万卡超算集群,还计划向百万卡规模冲击,同时悄悄布局芯片;Meta、AWS 等企业也在积极获取更多算力资源……但算力的发展并非一蹴而就,它需要在单点技术上极致突破,还涉及芯片、硬件、架构、软件、网络、能源乃至整个产业生态的协同演进。
放眼全球,能够输出澎湃算力的供应商,都离不开十数年、数十年的沉淀积累。
华为云作为其中一员,探索路径因所处产业阶段而显得尤为深刻:不仅需要在技术 " 无人区 " 重新定义算力运行规则;还需把握 AI 发展时机,通过快速迭代响应产业海量需求。一步步成长为今天的 " 算力黑土地 "。
黑土地是极其适合农业的土质,天然含有大量腐植质,在此耕种的庄稼产量高,能够茁壮成长。
华为云 " 算力黑土地 " 理念核心是,华为云向行业提供一块肥沃且精心开垦的 " 土壤 ",企业、开发者可根据自身需求,在这片 " 土壤 " 上开展 AI 创新实践。同时,华为云通过框架创新、软硬协同等一系列能力积累作为养料,让这片黑土地越来越肥沃。
正因如此,在大模型浪潮爆发的当下,华为云才能持续向产业输送澎湃算力,做最坚实的底座。其背后的研发、行动、理念与认知,也成为中国算力产业发展的重要参考。
智算 + 通算,覆盖全产业算力需求
想要快速前进,纲领是第一要务。
华为云的策略是智算(智能计算)+ 通算(通用计算)协同推进:
智算:聚焦 AI 前沿,提供极致性能与弹性服务,助力 AI 更快更好落地千行百业。
通算:依托鲲鹏云服务,从核心到边缘全场景赋能,提供安全可信的云上通用算力。
智算部分的核心服务模式是 Tokens 服务,同时也可以提供HCS 混合云、华为云液冷云数据中心以及昇腾专属云服务。开头提到的 CloudMatrix384 超节点能力升级和首创 EMS 弹性内存存储服务,就属于智算领域成果。
通算部分主要是鲲鹏云业务,基于华为云自研的鲲鹏处理器(ARM 架构),提供一系列面向通用计算场景的云服务产品,推动产业智能创新。
鲲鹏云实现了软硬协同的全面创新,从多核高并发的芯片设计、软硬一体的 " 擎天 " 架构,到华为云智能调度平台与操作系统的深度优化,鲲鹏云服务释放出 " 开箱即用 " 的强劲算力。目前云上鲲鹏核数从 900 多万核增长到 1500 万核,增幅达到 67%。同时全面兼容主流应用软件,已适配超过 25000 个应用,为 ARM 生态繁荣提供坚实支撑。
以上就是华为云 " 算力黑土地 " 的大致架构。在这一体系下,大模型时代中的华为云能够更清晰、更针对性根据 AI 落地需求进行升级,为产业提供更高效、易用、可靠的算力。
AI 时代,用 Tokens 定义计算
针对 AI 时代需求,华为云今年正式推出基于 CloudMatrix384 超节点的 Tokens 服务。这是一种面向 AI 大模型推理场景、按实际 Token 消耗量计费的云服务模式,与传统云计算计费方式不同,可显著降低 AI 推理成本。
这种模式调整背后,是对大模型落地的细致洞察。Token 是将文本分割转换成数字向量,大模型吞吐内容的规模以 Tokens 计算,它是大模型时代天然的计量单位。随着 AI 落地进程推进,Tokens 消耗量呈爆发式增长。
用 Tokens 作为计费单位逐渐成为行业共识:一方面,能更精准计算企业使用的资源,让用户仅为实际消耗付费,同时通过实际消耗了解费用构成,进一步优化成本;另一方面,可解决不同场景 Tokens 消耗量差距大导致的收费不公问题,为云厂商动态调节计算资源提供参考。
比如我们常遇到的在线、近线、离线等场景:长文本生成任务适用于日常办公等场景,白天调用量大、夜间几乎静默,按量计费比按时 / 按卡计费更合理;智能客服、AI 助手等场景中,不同细分情况的会话轮次和深度不确定,Tokens 服务模式可以更精准计算每次交互成本。
另一方面,Token 服务可以有效屏蔽复杂的底层技术实现,用户不必关心芯片的工艺、服务器的代次等复杂的硬件技术栈,也不必关心推理框架、模型部署等复杂的软件技术栈,可以高效地直接获得 "AI 的最终结果 "。
在本次 HC2025 上,华为云宣布 CloudMatrix384 AI Token 推理服务全面上线。这意味着 AI 算力进入以 " 极致性能、极致效率 " 为特征的新阶段,性能超越英伟达 H20 3-4 倍。其底层技术主要依托 CloudMatrix384 超节点及 xDeepServe 分布式推理框架等。
第一,CloudMatrix384 超节点使用全对等互联架构与高速通信技术,在计算通信等方面优势显著,能释放更极致算力。
CloudMatrix384 超节点通过华为云自研的 MatrixLink 高速对等互联网络,将 384 颗昇腾 NPU 和 192 颗鲲鹏 CPU 紧密耦合,形成逻辑统一的超级 "AI 服务器 "。通过 Scale Out 方式,还可以组成一个超 16 万卡的 AI 集群,同时支持 1300 个千亿参数大模型训练或者上万个模型的推理。
未来,基于华为刚刚发布的最新 AI 服务器规划,CloudMatrix 超节点的规格将进一步升级到 8192 颗,组成百万卡的 AI 集群。
第二,基于 " 一切可池化 " 理念,华为云通过首创的 EMS 弹性内存存储服务将 NPU 显存、CPU 内存和存储资源解耦,形成统一资源池。NPU 可直接远程访问池化内存,实现显存独立扩容,多轮对话 Token 时延大幅降低。同时,计算、存储和网络资源可根据负载需求动态组合,提升资源利用率。
这一技术对多轮次问答场景提升显著。大模型进行多轮问答时,通常响应会随轮次增加而变慢,原因是大模型需 " 记住 " 之前每一轮产生的数据以保证回答连贯性,当问答轮次增加,计算量成倍增长,导致响应延迟。而 EMS 服务能有效解决这一问题。
第三,PDC 分离及动态 PD:PDC( Prefill-Decode-Caching)分离是将 Prefill、Decode 固化在各自集群、同时利用 MatrixLink 高速对等互联网络可以全局寻址的特点而另设立独立的 KV 缓存集群,这样不论是 Prefill 集群还是 Decode 集群的 NPU 都能够直接访问独立 KV 缓存集群的共享内存缓存,突破数据的物理位置限制,显著提高负载均衡、NPU 利用率以及内存利用率,同时提供更大的弹性。同时,系统能够准确实时地分析或预测推理业务负载。
第四,CloudMatrix384 超节点专为主流 MoE 架构设计,支持 " 一卡一专家 " 的分布式推理模式,将 MoE 模型的专家模块分布到不同 NPU 卡上并行处理,如 256 个专家对应 256 张卡,减少通信延迟导致的算力浪费,减少每张卡权重加载的时延,同时减少权重的显存占用,显著提升单卡并行的路数。
当 Tokens 服务全面接入 CloudMatrix384 超节点后,企业用户能以优的性能、好的服务、高的质量,获得各行各业所需的 " 最终 AI 计算结果 ",更专注于应用和业务创新。
360 推出的纳米 AI 是全球唯一已经进化到 L4 级别的多智能体蜂群平台。
这对底层 AI 算力的实时推理性能和并发吞吐能力提出极高要求,且业务场景复杂,涉及多轮对话、文档分析等,要求算力平台具备高灵活性和适应性,同时随着用户规模增长,Tokens 消耗量成倍增加,进一步加大了算力需求。
华为云将纳米 AI 中调用量最大的模型部署在 CloudMatrix384 昇腾 AI 云服务上,进行全面调优,并提供 Tokens 服务。基于 CloudMatrix384 超节点全新高速网络对等互联,384 颗昇腾 NPU、192 颗鲲鹏 CPU 组成一台超级 "AI 服务器 ",算力和资源互联带宽提升数十倍以上;同时依托 xDeepServe 分布式推理框架打造 Tokens" 超高速流水线 ",结合 EMS 弹性内存存储打破 AI 内存墙,实现 " 以存强算 ",最终帮助企业客户更灵活、低成本地调用优质算力,高效发展 AI Agent 应用。
另一边,华为云也能满足国家级科研机构对高精度、高专业性和安全可信的算力需求。
今年,中国科学院自动化研究所牵头打造并发布 " 磐石 · 科学基础大模型 ",旨在为科学研究提供智能底座,推动生物、化学等领域专业大模型开发。
作为国家级科研机构,中国科学院多个研究所都对算力有国产化、自主可控的要求,且科学模型需要高精度、高专业性,比如航天航空、医疗、气象预测等领域,低精度训练可能影响实验结果。同时中国科学院涉及的科研场景多样,上百个研究所都将基于科学基础大模型开展研究工作,需要算力平台既能匹配高效算力,又能满足长期演进及专业化服务需求。
以高能物理应用为例,北京正负电子对撞机基于磐石实现粒子轨迹重建等任务的自动化。借助华为云 CloudMatrix384 昇腾 AI 云服务,基于磐石发展粒子物理领域大模型,模拟速度提升 1 个量级,物理分析周期缩短 1 个量级,进一步助力加速新物理现象发现。
除此之外,科大讯飞星火大模型推理、面壁小钢炮 MiniCPM 端侧模型训练、美的 " 双活 " 资源底座构建、高教社智能内容服务平台等,均以华为云 CloudMatrix384 昇腾 AI 云服务为底座,实现效率提升与创新加速。
十年积累孕育黑土地
以上,是对华为云 " 算力黑土地 " 的剖析。
华为云的全栈研发体系与长期高额研发投入,如同 " 地核 " 一样,为一切提供持续热量和磁场保护,确保 " 生命 " 得以存在、成长。如今,大模型爆发如同寒武纪生命大爆发般,推动 AI 应用快速普及,华为云打造的 " 算力黑土地 ",也迎来了播种与收获的时刻。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见