" 扩散模型同样可以成为通向 AGI 的主干道。"
作者:苏打
编辑:tuya
出品:财经涂鸦(ID:caijingtuya)
据介绍,这款新模型通过非自回归的掩码扩散机制,首次通过原生训练的 MoE 在大规模语言模型中实现了与 Qwen2.5 相当的语言智能(如上下文学习、指令遵循、代码和数学推理等),挑战了 " 语言模型必须自回归 " 的主流认知。
实现数据显示,LLaDA-MoE 模型性能效果在代码、数学、Agent 等任务上领先于 LLaDA1.0/1.5 和 Dream-7B 等扩散语言模型,接近或超越了自回归模型 Qwen2.5-3B-Instruct,仅激活 1.4B 参数即可实现等效 3B 稠密模型的性能。
"LLaDA-MoE 模型验证了工业级大规模训练的扩展性和稳定性,意味我们在把 dLLM 训扩到更大规模的路上又往前走了一步。" 蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰创始人蓝振忠在发布现场表示。
据中国人民大学高瓴人工智能学院副教授李崇轩介绍,两年过去,AI 大模型能力突飞猛进,但存在一些问题始终没有得到本质上的解决。
" 究其原因,这是当前大模型普遍采用的自回归生成范式所造成的——模型天然是单向建模的,从前往后依次生成下一个 token。这导致它们难以捕 tokens 之间的双向依赖关系。"
面对这些问题,蚂蚁和人大联合研究团队首次 MoE 架构上推出了原生的扩散语言模型 LLaDA-MoE。
蓝振忠还表示," 我们将于近期向全球完全开源模型权重和自研推理框架,与社区共同推动 AGI 新一轮突破。"
据了解,蚂蚁与人大团队攻关 3 个月,在 LLaDA-1.0 基础上重写训练代码,并且基于蚂蚁自研分布式框架 ATorch 提供 EP 并行等一系列并行加速技术,基于蚂蚁 Ling2.0 基础模型的训练数据,在负载均衡、噪声采样漂移等核心难题上取得突破,最终采用 7B-A1B(总 7B、激活 1.4B)的 MOE 架构完成约 20T 数据的高效训练。
在蚂蚁自研的统一评测框架下,LLaDA-MoE 在 HumanEval、MBPP、GSM8K、MATH、IFEval、BFCL 等 17 项基准上平均提升 8.4%,领先 LLaDA-1.5 达到 13.2%,与 Qwen2.5-3B-Instruct 打平。实验再次验证 "MoE 放大器 " 定律在 dLLM 领域同样成立,为后续 10B – 100B 稀疏模型提供可行路径。
据蓝振忠介绍,除模型权重外,蚂蚁还将同步开源针对 dLLM 行特性深度优化的推理引擎。相比 NVIDIA 官方 fast-dLLM,该引擎实现了显著加速。相关代码与技术报告将于近期在 GitHub 及 Hugging Face 社区同步发布。
蓝振忠还透露,蚂蚁将持续投入包括基于 dLLM 的 AGI 领域,下一阶段将联合学界和全球 AI 社区共同推动 AGI 新的突破。" 自回归不是终点,扩散模型同样可以成为通向 AGI 的主干道。" 蓝振忠如是说。
本文由公众号财经涂鸦(ID:caijingtuya)原创撰写,如需转载请联系涂鸦君。
添加涂鸦君个人微信(ID:tuyaclub)
加入【公司情报社群】
参与资本市场讨论
获取一手情报