关于ZAKER 合作
雷锋网 40分钟前

挑战主流认知!蚂蚁、人大在 2025 外滩大会发布行业首个原生 MoE 扩散语言模型

蚂蚁集团和人民大学联合研发原生 MoE 架构扩散语言模型(dLLM ) LLaDA-MoE,在约 20T 数据上完成了从零训练 MoE 架构的扩散语言模型,验证了工业级大规模训练的扩展性和稳定性;效果超过此前发布稠密扩散语言模型 LLaDA1.0/1.5 和 Dream-7B,比肩等效自回归模型,并保有数倍的推理速度优势。模型将在近期完全开源,以推动全球 AI 社区在 dLLM 上的技术发展。

9 月 11 日,在 2025Inclusion · 外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生 MoE 架构的扩散语言模型(dLLM)"LLaDA-MoE",中国人民大学高瓴人工智能学院副教授李崇轩,蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰创始人蓝振忠参与了发布仪式。

(中国人民大学、蚂蚁集团联合发布首个 MoE 架构扩散模型 LLaDA-MoE)

据介绍,这款新模型通过非自回归的掩码扩散机制,首次通过原生训练的 MoE 在大规模语言模型中实现了与 Qwen2.5 相当的语言智能(如上下文学习、指令遵循、代码和数学推理等),挑战了 " 语言模型必须自回归 " 的主流认知。

实现数据显示,LLaDA-MoE 模型性能效果在代码、数学、Agent 等任务上领先于 LLaDA1.0/1.5 和 Dream-7B 等扩散语言模型,接近或超越了自回归模型 Qwen2.5-3B-Instruct,仅激活 1.4B 参数即可实现等效 3B 稠密模型的性能。

(LLaDA-MoE 性能表现)

"LLaDA-MoE 模型验证了工业级大规模训练的扩展性和稳定性,意味我们在把 dLLM 训扩到更大规模的路上又往前走了一步。" 蓝振忠在发布现场表示。

中国人民大学高瓴人工智能学院副教授李崇轩介绍," 两年过去,AI 大模型能力突飞猛进,但存在一些问题始终没有得到本质上的解决。究其原因,这是当前大模型普遍采用的自回归生成范式所造成的——模型天然是单向建模的,从前往后依次生成下一个 token。这导致它们难以捕 tokens 之间的双向依赖关系。"

面对这些问题,一些研究者选择另辟蹊径,将目光投向并行解码的扩散语言模型。然而,现有 dLLM 均基于稠密架构,难以复刻 ARM 中 MoE 的 " 参数扩展、计算高效 " 优势。在这样的行业背景下,蚂蚁和人大联合研究团队,首次在 MoE 架构上推出了原生的扩散语言模型 LLaDA-MoE。

蓝振忠还表示," 我们将于近期向全球完全开源模型权重和自研推理框架,与社区共同推动 AGI 新一轮突破。"

据了解,蚂蚁与人大团队攻关 3 个月,在 LLaDA-1.0 基础上重写训练代码,并且基于蚂蚁自研分布式框架 ATorch 提供 EP 并行等一系列并行加速技术,基于蚂蚁 Ling2.0 基础模型的训练数据,在负载均衡、噪声采样漂移等核心难题上取得突破,最终采用 7B-A1B(总 7B、激活 1.4B)的 MOE 架构完成约 20T 数据的高效训练。

在蚂蚁自研的统一评测框架下,LLaDA-MoE 在 HumanEval、MBPP、GSM8K、MATH、IFEval、BFCL 等 17 项基准上平均提升 8.4%,领先 LLaDA-1.5 达到 13.2%,与 Qwen2.5-3B-Instruct 打平。实验再次验证 "MoE 放大器 " 定律在 dLLM 领域同样成立,为后续 10B – 100B 稀疏模型提供可行路径。

据蓝振忠介绍,除模型权重外,蚂蚁还将同步开源针对 dLLM 并行特性深度优化的推理引擎。相比 NVIDIA 官方 fast-dLLM,该引擎实现了显著加速。相关代码与技术报告将于近期在 GitHub 及 Hugging Face 社区同步发布。

蓝振忠还透露,蚂蚁将持续投入包括基于 dLLM 的 AGI 领域,下一阶段将联合学界和全球 AI 社区共同推动 AGI 新的突破。" 自回归不是终点,扩散模型同样可以成为通向 AGI 的主干道。" 蓝振忠如是说。

相关标签
ai

相关阅读

最新评论

没有更多评论了