放眼当下,到底哪个芯片跑满血 DeepSeek是最快的?
答案很意外——不是你以为的英伟达,而是一家国产 GPU。
因为现在它的速度,已经直接来到了100 tokens/s!
当中间的国产 GPU 以行云流水之势给出了完整准确答案之际,两边的 " 选手 " 则是还在深度思考过程中:
不卖关子,它就是摩尔线程。
但这时肯定有很多小伙伴会问了,从成立到现在不到 5 年时间,摩尔线程的何以取得如此速度。
在量子位了解完其在 " 算力之道 " 的全貌之后发现,答案,远比 " 做出一颗更快的芯片 " 要宏大和深刻。
已经造了个 AI 超级工厂
没错,这是因为摩尔线程在搞算力这件事儿上,已经给自家打造了一个AI 超级工厂(AI Foundry)。
提到 Foundry 这个单词,很多人第一反应或许就是造芯片时的 " 晶圆厂 ",它的价值取决于于生产芯片的良率、产能和工艺先进性。
但 AI 超级工厂,它并非指代一个物理上生产芯片的晶圆厂,而是一个类比的概念:
这个 AI 工厂的进化,就像升级制程一样,绝不是改改某个单一技术就完事儿了,而是一个系统性、全方位的变革。
它要求整个技术栈 " 脱胎换骨 ":从最底层的芯片架构必须革新、到集群的整体架构得巧妙设计,再到软件层面——算法怎么调更聪明,资源调度怎么跑更高效,每一个环节都至关重要。
正是这种从根儿上动起来的基础设施大改造,才能真正释放 AI 算力,实现大规模 " 生产 " 和 " 迭代 " 前沿 AI 大模型。
它需要五大核心要素的紧密耦合与协同进化,缺一不可;
这个 AI 工厂的产能,用一套公式可概括为:
AI 工厂生产效率 = 加速计算通用性 × 单芯片有效算力 × 单节点效率 × 集群效率 × 集群稳定性
摩尔线程正是围绕这五大要素,构建了技术护城河。
全功能 GPU:超级工厂的基石
AI 超级工厂的基石,指的是一颗具备强大通用性的 " 全功能 GPU"。因为回顾算力的进化史,其实就是一部全功能 GPU 的发展史。
单一功能的加速器,如早期的 3D 加速卡或今天的某些专用 AI 芯片(ASIC),虽然在特定任务上效率极高,但其灵活性差、编程困难,无法适应 AI 模型日新月异、应用场景层出不穷的发展趋势。
一个 AI 模型可能既需要处理语言,也需要理解图像,甚至要进行物理世界的模拟。如果工厂的 " 机床 " 只能处理一种任务,那么它很快就会被淘汰。
因此,摩尔线程从创立之初就坚持打造真正的全功能 GPU,既要 " 功能完备 ",也要 " 精度完整 "。
AI 计算加速引擎:不仅能做推理,更能做训练,实现训推一体。
先进的 3D 图形渲染引擎:支持 DX12 等现代图形 API,满足游戏、AIGC、数字孪生等视觉计算需求。
物理仿真与科学计算引擎:这是常被忽视却至关重要的一环。未来的 Agentic AI、空间智能都需要与物理世界交互,强大的科学计算能力是连接数字世界与物理世界的桥梁。
超高清视频编解码引擎:AI 的计算结果最终需要通过视觉和听觉呈现给人类,高清、低延迟的流媒体处理能力是人机交互体验的保证。
MUSA 统一系统架构:超级工厂的 " 总设计师 "
如果说全功能 GPU 是工厂的机床,那么 MUSA 就是整个工厂的 " 总设计师 "。一个卓越的顶层架构,能够决定一家公司未来十年甚至更长时间的技术路线和发展潜力。
MUSA 的核心理念是 " 一个架构,万千应用 "(One Architecture for Many Applications)。它采用创新的多引擎、可伸缩、可配置的统一系统架构,将 GPU 内部的计算、通信、内存、调度等功能进行顶层设计和统一管理。
先来看可伸缩,顾名思义,MUSA 架构是可以根据不同客户、不同市场的需求,快速裁剪出优化的芯片配置,大幅降低了新品芯片的开发成本。
其次,资源全局共享,简单说,就是把所有硬件资源——像计算核心、内存、通信这些——都打通,变成一个大资源池,然后用智能调度灵活分配。
这招儿直接解决了大问题:以前那种单引擎 GPU,多个任务一起跑的时候特别容易卡。现在好了,所有资源大家共享,按需取用!
除此之外,MUSA 架构内部包含了多个摩尔线程自研的核心技术。
MUSA 全栈系统软件:超级工厂的 " 操作系统 " 与 " 工具箱 "
再好的硬件,若是没有高效的软件,同样也无法发挥其全部潜力。因此,摩尔线程打造了与 MUSA 硬件架构深度耦合的全栈软件系统,它在 AI 超级工厂中扮演着 " 操作系统 " 和 " 开发者工具箱 " 的角色。
这个软件栈可以说是覆盖了从底层驱动到上层应用框架的方方面面:
核心算子库:对标国际大厂的 cuDNN,摩尔线程的 muDNN 在算子层面进行了大量优化,GEMM 算子算力利用率达 98%,Flash Attention 算子算力利用率突破 95%。
生态兼容与 Triton 支持:通过 MUSIFY 等工具,实现了对 PyTorch、TensorFlow 等主流 AI 框架的无缝支持。尤其值得一提的是,基于 Triton-MUSA 编译器 + MUSA Graph 实现 DeepSeek R1 推理加速 1.5 倍,全面兼容 Triton 等主流框架。
完善的开发者套件:提供了一整套涵盖性能分析(Profiler)、调试、调优、一键部署等功能的工具链,如同一个 " 百宝箱 ",让开发者能够洞察硬件运行的每一个细节,榨干硬件的每一分性能。
这套全栈系统软件,确保了开发者不仅能 " 用起来 ",更能 " 用得好 ",将 MUSA 硬件架构的强大能力顺畅地传递到上层应用,是连接硬件与算法的关键枢纽。并且通过 MUSA 全栈系统软件的优化,摩尔线程实现了 " 单节点计算效率 " 全面提升。
单卡、单节点的性能再强,也无法完成动辄千亿、万亿参数大模型的训练。AI 超级工厂必须以大规模集群的形式存在。为此,摩尔线程构建了夸娥(KUAE)大规模智能计算集群。
软硬一体化设计:从服务器节点、交换机到机柜,再到上层的集群管理软件、任务调度系统,全部进行了协同设计和优化。
创新 5D 并行训练:摩尔线程整合数据并行(DP)、流水线并行(PP)、张量并行(TP)等所有主流的并行训练策略,全面支持 Transformer 等主流架构,并能根据模型特点自动搜索和推荐最优的并行方案。
端到端训练优化:覆盖了从数据预处理、模型预训练、强化学习、微调到验证评估的全流程,提供一站式服务。
性能仿真工具(Simumax):自主研发的 Simumax 工具面向超大规模集群自动搜索最优并行策略,精准模拟 FP8 混合精度训练与算子融合,为 DeepSeek 等模型缩短训练周期提供科学依据。
高效 Checkpoint:针对大模型稳定性难题,创新 CheckPoint 加速方案利用 RDMA 技术,将百 GB 级备份恢复时间从数分钟压缩至 1 秒,提升 GPU 有效算力利用率。
通过夸娥计算集群,摩尔线程将单点的 GPU 性能优势,成功扩展到了千卡、万卡乃至更大规模的集群层面,构建起了一个真正具备强大 " 生产力 " 的 AI 超级工厂。并且通过实测,KUAE 2 大规模智算集群,在不同架构模型的 MFU,已经达到了行业领先水平。
对于一个需要 7x24 小时不间断运行的 AI 超级工厂来说,稳定性压倒一切。一次意外的宕机,可能意味着数百万美元的损失和数周工作的付诸东流。因此,摩尔线程开发了独有的 " 零中断容错技术 ",这是保障工厂稳定运行的 " 安全生产协议 "。
传统的容错机制,在硬件(如 GPU 卡)发生故障时,需要暂停整个训练任务,人工替换硬件,再从最近的 Checkpoint 恢复,整个过程耗时耗力。而摩尔线程的零中断技术则完全不同:
零中断容错技术:当某个节点变慢或出现故障时,仅隔离受影响节点组,其余节点继续训练,备机无缝接入,全程无中断。这一方案使 KUAE 集群有效训练时间占比超 99%,大幅降低恢复开销。
多维度训练洞察:通过多维度的数据监控和 AI 预测模型,系统能够提前感知到哪些节点可能会成为 " 慢节点 ",并进行预警或隔离,实现动态监测与智能诊断,异常处理效率提升 50%;
集群自检及调度优化:在训练任务开始前,系统会自动对整个集群进行 " 体检 ",确保所有软硬件都处于最佳状态,如同飞机起飞前的安全检查,训练成功率提高 10%,为大规模 AI 训练提供稳定保障。
那么接下来的一个问题是:
为什么要造 AI 超级工厂?
这个问题的答案,或许植根于摩尔线程对计算革命过去、现在与未来的深刻洞察。
十年前,以人脸识别、自动驾驶为代表的 " 感知 AI" 大爆发,催生了第一批 AI 巨头。而从 2022 年 ChatGPT 横空出世至今,我们正处在 " 生成式 AI" 的指数级爆发期。
大模型的 " 智商 " 迭代速度令人咋舌,从去年还在人类平均水平的四五十分,到如今顶尖模型已经飙升至七八十分,直逼人类顶尖水准。
模型的迭代速度,也从过去的数月一更,压缩到如今的数周甚至每周一更。这场竞赛的背后,驱动力只有一个——算力。
正如马斯克能够凭借其 20 万张 H100,让 Grok 模型在短时间内登顶排行榜,这残酷地揭示了一个事实:Scaling Law 是 AI 发展的铁律。
谁拥有更大、更强的算力基础设施,谁就能更快地迭代模型,抢占技术和市场的制高点。
而展望未来五年,Agentic AI(智能体 AI)和空间智能将成为新的爆发点。AI 将不再仅仅是聊天的工具,而是成为可以自主完成复杂任务的 " 数字员工 ",并与物理世界深度融合。
这一切,都意味着对算力的需求将再次呈几何级数增长。在这样的大背景下,仅仅满足于当下的计算能力是远远不够的,必须为未来更加庞大的计算需求做好准备。
面对永无止境的算力需求,仅仅追求 " 快 " 是片面的。未来的计算,更需要的是全方位的 " 稳 " ——稳定、可靠、高效、通用。
这正是建设 AI 超级工厂的根本原因。
你不能指望靠 " 人海战术 ",找十亿个儿童去抬起一栋大楼;同样,你也不能简单地将一万张低效的显卡堆在一起,就期望能训练出高质量的大模型。
这个过程充满了挑战,例如在成本方面,一次大规模训练动辄耗费数月和数百万美元,任何中断或失败都是巨大的损失。
再如面对复杂的系统,上千个节点、上万颗芯片如何高效通信、同步?软件和硬件如何完美适配?又该如何快速定位和解决问题?
还有在实际应用过程中,往往任务又是多样性的:今天训练语言模型,明天可能就要处理多模态数据,后天又要进行科学计算……
这些挑战,都无法通过购买单一的 " 最快芯片 " 来解决。它需要一个从底层硬件到上层软件,再到集群管理和运维服务的端到端解决方案。
这恰恰是摩尔线程 "AI 超级工厂 " 的核心价值所在——它提供的不是孤立的算力,而是一种确定性的、高效率的、高成功率的 AI 模型生产能力。
总而言之,摩尔线程选择了一条最艰难,但可能也是最正确的道路。他们没有满足于在某个单点上追赶或超越,而是立足于未来,从根本上思考如何为这个时代提供最先进的 " 生产力工具 "。
这,就是摩尔线程给出的答案,一个不止于快,更关乎未来的答案。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见