训练精度优于国际主流 1.65%: 摩尔线程通过智源 FlagOS 全要素验证

近日，北京智源人工智能研究院正式发布重磅验证成果：六款 AI 芯片、三大模型、同构 + 异构千卡——众智 FlagOS 以统一技术栈完成 AI 训练 " 全要素 " 验证。

作为本次验证的核心参与厂商之一，摩尔线程基于旗舰级 AI 训推一体全功能 GPU 智算卡 MTT S5000，完整适配了 FlagOS 训练全要素软件栈——包括 FlagScale 系统调度决策框架、Megatron-LM 分布式训练框架、Transformer Engine 加速库、FlagGems 与 Triton 算子库，以及 FlagCX 通信库。

在此次严苛的验证中，MTT S5000 面向 Qwen3-0.6B 语言模型完成了 1T Tokens 从头训练验证，实现连续 6 天以上、超过 14000 步的无中断稳定训练。训练所得模型 Loss 曲线与基线高度一致，平均相对误差控制在 0.82% 以内；在标准下游任务评测中，较行业标杆基线（英伟达）提升 1.65 个百分点，充分验证了全功能 GPU 算力在大模型端到端训练中的稳定性与有效性。

长周期高负载验证：

4 机 32 卡无中断，6+ 天稳定训练

此次 FlagOS 全要素适配与验证工作，旨在检验多元 AI 算力在统一软件栈下的端到端训练能力。摩尔线程与智源团队紧密协作，高效完成了底层适配与系统调优，并于春节前正式启动全流程训练验证。

在实际训练中，摩尔线程采用 4 机 32 卡配置，面向 Qwen3-0.6B 语言模型开展训练。在超过 6 天的连续训练周期内，系统稳定完成 1T Tokens 数据量的超过 14000 步迭代，期间未发生任何软硬件中断。这一结果回应了业界对国产算力大规模训练稳定性的核心关切，也进一步证明了基于 MTT S5000 构建的训练集群在长时间、高负载场景下的可靠性，充分验证国产算力已具备支撑企业级大模型预训练任务的能力。

精度稳定对齐：

Loss 曲线高度一致，评测效果优于基线

大模型训练的核心诉求，不仅在于算力规模与性能，更在于训练过程中的稳定性、收敛效果和最终模型质量。其中，训练精度是基石，下游任务评测效果则是检验训练成效的关键指标。

在 FlagOS 统一软件栈的调度下，采用完全对齐的数据集和训练参数，基于 MTT S5000 集群的训练过程呈现出与国际主流产品基线高度一致的 Loss 收敛曲线，平均相对误差控制在 0.82% 以内。与此同时，在标准的下游任务评测中，基于 MTT S5000 训练的模型，取得了比行业标杆基线高出 1.65 个百分点的结果表现。

与基线评测偏差的计算方法（后面的计算方式类似）：

Qwen3-0.6B 评测结果（正数是优于基线）

这一结果表明，开发者基于公开的模型结构与数据集，即可在摩尔线程 MTT S5000 算力平台上，获得与国际主流平台精度相当，并在部分评测指标上实现更优表现的大模型训练效果。

此外，摩尔线程基于 MTT S5000 的训练能力已在更大规模场景中得到验证。今年 1 月，依托摩尔线程 MTT S5000 千卡智算集群，FlagOS 成功完成智源自研具身大脑模型 RoboBrain 2.5 的全流程训练与优化验证。结果显示，其 Loss 曲线与国际主流产品基线高度一致，最终结果相对误差小于 0.62%；在 64 卡至 1024 卡规模区间内，多组实验均实现超过 90% 的线性扩展效率。该案例表明，摩尔线程基于 MTT S5000 的训练能力不仅可支撑长周期端到端验证，也具备向更大规模、更复杂模型场景持续延展的能力。

RoboBrain2.5 模型评测效果

端到端训练 Loss 曲线

软硬创新协同：

打造高质量大模型训练底座

此次验证成绩的取得，离不开摩尔线程在芯片架构、通信能力、计算单元协同以及 FP8 训练支持等方面的持续打磨。基于 MTT S5000，摩尔线程正不断完善面向大模型训练的软硬件能力，为训练稳定性、精度表现和规模扩展提供坚实支撑。

▼架构级精度优化：深入打磨矩阵乘法（GEMM）算子

矩阵乘法（GEMM）是大模型训练中的核心算子之一，其数值精度直接影响 Loss 曲线的收敛表现与最终模型效果。围绕这一关键环节，摩尔线程团队在 MTT S5000 的架构设计阶段，便针对浮点运算的舍入模式、累加路径等关键计算链路进行了精细化优化。这种来自架构层面的持续打磨，使得 MTT S5000 在长时间训练过程中保持更稳定的数值表现，为模型训练精度对齐及下游评测效果提升提供了坚实的底层保障。

▼ ACE 异步通信引擎：让计算与通信更高效并行

在大规模分布式并行训练中，卡间通信往往会与计算任务争抢带宽及核心资源，成为制约扩展效率的瓶颈。MTT S5000 创新性地内置了 ACE（Asynchronous Communication Engine，异步通信引擎），作为独立的硬件通信单元，能够在不占用计算核心资源的情况下，高效完成跨卡间的 all_reduce、all_gather 等集合通信操作。得益于 ACE，通信与计算得以更深度地并行协同——当 Tensor Core（张量计算核心）在进行繁重的矩阵运算时，ACE 已在后台并行完成梯度同步，为大规模训练带来更高的资源利用效率。摩尔线程在千卡规模训练中能保持超过 90% 的线性扩展效率，正是这一设计优势的重要体现。

▼多计算单元协同：Tensor Core 与 Vector Core 高效配合

为了更好适配大模型训练中多样化的计算负载，MTT S5000 在算力单元的设计上，对 Tensor Core 与 Vector Core（向量计算单元）进行了针对性的配置与协同优化。在实际调度中，密集的矩阵运算交给 Tensor Core 处理，而 LayerNorm、Softmax、激活函数等偏向内存或带宽密集型算子则交由 Vector Core 高效执行。基于这一硬件特性，摩尔线程联合智源团队对 FlagOS 进行了深度的软件栈调优，最终在 FlashAttention 等关键算子上实现了超过 90% 的计算资源利用率，进一步释放了平台的训练潜力。

▼原生 FP8 支持：协同 MT-Megatron 稳定高效释放 Grouped GEMM 潜力

随着模型参数规模迈入千亿甚至万亿级别，低精度训练已成为提升训练效率的重要方向。MTT S5000 在硬件层面原生支持 FP8 数据精度，为更高吞吐的大模型训练提供了基础能力。通过底层算子库的高效优化，其 FP8 Grouped GEMM 性能在实际场景中取得了超过 700TFLOPs 的性能表现。同时，摩尔线程对 MT-Megatron 分布式训练框架进行了深度适配与优化，进一步提升了 FP8 训练在主流大模型上的稳定性与可收敛性，能够为包括 DeepSeek-V3 在内的大模型训练提供有效支撑。

从训练稳定性、收敛精度到下游任务效果，摩尔线程基于 MTT S5000 交出的这份成绩单表明，在统一技术栈下，国产全功能 GPU 不仅验证了大模型端到端训练的可用性，也展现出在实际训练效果上持续提升的潜力。

北京智源人工智能研究院副院长兼总工程师林咏华表示：" 长期以来，‘对齐 CUDA ’只是行业在缺乏替代方案下‘不得已为之’的对齐标准。但如果能获得比 CUDA 更优的实际训练效果，才是产业界共同的期待，才能让系统架构百花齐放、勇于创新。摩尔线程在训练实测中超过了国际主流产品的表现，证明了这种期待已经有实现的可能性了。"

未来，摩尔线程将继续深化与智源研究院及生态伙伴的合作，以自主创新的全功能 GPU 算力底座，推动多元算力从 " 普适 " 走向 " 普惠 "，为中国大模型研发提供开放、高效、可规模化复制的 " 国产算力训练范式 "。

波司登高级产品线AREAL第二季作品香港全球首发，携手英国设计师Kim Jones探索当代时装表达新范式

钛媒体 20小时前

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

训练精度优于国际主流 1.65%: 摩尔线程通过智源 FlagOS 全要素验证

宙世代

一起剪

相关阅读

波司登高级产品线AREAL第二季作品香港全球首发，携手英国设计师Kim Jones探索当代时装表达新范式

最新评论

企业资讯

热门推荐

企业资讯

热门订阅 换一批

AI价值官

医线Insight

银莕财经

局市

挖贝网

GMIF创新观察

中保新知

热门订阅换一批