关于ZAKER Skills 合作
智东西 5小时前

超越 DeepSeek-V4! 罗福莉交出小米最强开源模型 , 首日适配 5 家国产芯片

智东西(公众号:zhidxcom)

作者 | 李水青

编辑 | 云鹏

智东西 4 月 28 日报道,刚刚,小米开源罗福莉带队研发的MiMo-V2.5 系列模型,采用 MIT 协议,允许商用推理部署与二次训练,无需额外授权。

▲ MiMo-V2.5-Pro 在 Hugging Face 的开源页面截图

此前,该系列模型于 4 月 23 日开启公测,包括 MiMo-V2.5-Pro、MiMo-V2.5 两款模型。模型具备更强 Agent 能力,支持 100 万上下文,且 Token 效率大幅提升。

MiMo-V2.5-Pro 的完整基准测试结果今日公布,小米称其在 GDPVal-AA(Elo)、Claw-Eval(pass^3)等多项测评中超过了最新开源的 DeepSeek-V4-Pro 模型,也超过了发布不久的 Kimi K2.6 等主流闭源模型,实现总体最佳。

▲ MiMo-V2.5-Pro 的最新测评成绩

开源首日,MiMo-V2.5-Pro 宣布已完成与阿里平头哥、亚马逊云科技、AMD、百度昆仑芯、燧原科技、沐曦、天数智芯多个芯片厂商的接入适配。MiMo-V2.5 系列模型同步完成 SGLang 和 vLLM 主流推理框架的 Day 0 适配。

与此同时,小米还推出百万亿 Token 创造者激励计划,计划 30 天内免费发放总计 100 万亿 Token 权益;推出 Agent 生态共建计划,目前已与 OpenCode、Hermes Agent、KiloCode 等 Agent 框架厂商展开合作。

模型权重合集:

https://huggingface.co/collections/XiaomiMiMo/mimo-v25

更多细节参考模型 Blog:

https://mimo.xiaomi.com/index#blog

百万亿 Token 计划申请网址:

https://100t.xiaomimimo.com/

一、模型技术细节公布,测评超越 DeepSeek-V4

由小米最新公开的模型卡可知,小米迄今为止最强模型 MiMo-V2.5-Pro 是一款拥有 1.02 万亿(1.02T)个参数的混合专家模型,其中 420 亿(42B)个激活参数,基于混合注意力架构,相比前代模型在通用智能能力、复杂软件工程和长时域任务处理方面均实现了显著提升。

MiMo-V2.5-Pro 继承了 MiMo-V2-Flash 的混合注意力机制和多标记预测(MTP)设计。局部滑动窗口注意力(SWA)和全局注意力(GA)以 6:1 的比例交错使用,窗口大小为 128 个 Token,在长上下文情况下,通过可学习的注意力池偏置,将键值缓存存储空间减少了近 7 倍,同时保持了性能。一个轻量级的 MTP 模块,采用密集前馈神经网络(FFN),原生集成用于训练和推理,输出吞吐量大约提升了三倍,并加速了强化学习(RL)的部署。

▲ MiMo-V2.5-Pro 的模型架构及训练过程

该模型预训练使用 27 万亿(27T)个 Token,采用 FP8 混合精度,原生序列长度为 32K,上下文扩展至 1M 个 Token。后训练遵循 MiMo-V2-Flash 中引入的三阶段范式:1、监督式微调,在精心挑选的数据对上建立基础的指令跟踪;2、领域专精训练,其中不同的教师模型分别通过针对特定领域的强化学习进行优化,涵盖数学、安全、智能工具使用等领域;3、多教师策略蒸馏(MOPD),其中单个学生模型在每位专精教师的 Token 级指导下,从自身的展开中学习策略,并将所有教师的能力融合到一个统一的模型中。

再来看看 MiMo-V2.5,这是一个 3100 亿(310B)参数的稀疏 MoE 模型,拥有 150 亿(15B)激活参数,在 48 万亿(48T)个 Token 上进行训练。它的语言主干框架继承了 MiMo-V2-Flash 的混合滑动窗口注意力机制,并搭载自研预训练视觉、音频编码器,两类编码器通过轻量化投影模块完成跨模块融合。

训练过程分为五个阶段:1、基于多样化语料开展文本预训练,搭建大语言模型主干网络;2、进行投影层预热训练,实现音视频、视觉投影器与语言模型的对齐融合;3、依托高质量跨模态数据集,开展大规模多模态预训练;4、执行监督微调与智能体后训练,在此过程中将上下文窗口从 32K 逐步扩容至 256K,最终达到 100 万 Token;5、最后是通过强化学习(RL)与多目标偏好蒸馏(MOPD),进一步强化模型的感知、逻辑推理与智能体执行能力。

从小米最新公布的测评结果来看,MiMo-V2.5 在 Claw-Eval Text、Terminal-Bench 2.0、SWE-Bench Pro 等多项测评中大幅超越了 DeepSeek 最新发布的 DeepSeek-V4-Flash。

▲ MiMo-V2.5 最新测评情况

二、开源首日,完成阿里平头哥沐曦等 7 家芯片厂商适配

小米还公布了芯片生态与推理框架最新适配情况,MiMo-V2.5-Pro 开源首日完成多个芯片厂商的接入适配:

阿里平头哥:基于真武 810E 及全栈自研 AI 软件栈实现深度适配。

亚马逊云科技:基于 Trainium2 芯片与 Neuron SDK + vLLM 推理框架完成深度适配,实现开源即全球可用的首日适配。下一代 3nm 制程 Trainium3 将进一步释放模型性能。

AMD:依托 ROCm 开源软件栈提供 Day-0 适配及全面优化支持。

百度昆仑芯:通过底层算子优化与软硬件协同加速,保障模型稳定高效运行。

燧原科技:基于自研驭算 TopsRider 软件栈深度优化,在燧原 L600 上完成全量适配。

沐曦:基于曦云 C 系列及全栈自研 MXMACA 软件栈,实现 Triton 语法到沐曦 GPU 指令集的端到端原生支持。

天数智芯:实现 Day 0 级深度适配。

此外,MiMo-V2.5 系列模型同步完成 SGLang 和 vLLM 主流推理框架的 Day 0 适配。

三、免费发放 100 万亿 Token,已与 Hermes Agent 等合作

与此同时,小米还同步推出 MiMo Orbit 计划,包含两部分:" 百万亿 Token 创造者激励计划 ",与面向 Agent 框架团队的 "Agent 生态共建计划 "。

在百万亿 Token 创造者激励计划方面,小米面向全球 AI 用户免费发放 Token,30 天内发放总计 100 万亿 Token 权益,赠完即止。

该计划采取申请制,通过者最高获得 Max 档位 Token Plan,包含 16 亿 Credits,价值 659 元。活动时间:北京时间 2026 年 4 月 28 日 00:00 至 5 月 28 日 00:00。

Agent 生态共建计划方面,小米面向全球 Agent 框架团队提供专项支持,为框架提供 MiMo Token 限免支持,同时参与和赞助框架平台的 AI Hackathon 等共创活动。

其目前已与 OpenCode、Hermes Agent、KiloCode 等 Agent 框架厂商展开深度合作。

结语:多款国产开源模型 " 亮剑 " 交锋

近期,大模型行业开源力度持续加码,模型与国产及国际芯片的 "Day 0" 适配已从亮点变为刚需,推理效率和部署成本成为下一阶段竞争的核心。同时,百亿级 Token 免费激励与 Agent 框架生态共建,反映出行业正从 " 拼参数 " 转向 " 拼应用 "。

值得关注的是,小米 MiMo-V2.5-Pro 在多项基准评测中直接超越 DeepSeek 最新开源的 DeepSeek-V4-Pro 模型,可谓与 DeepSeek 在开源赛道发起 " 亮剑 " 交锋,有望倒逼行业更快降低推理成本、提升 Agent 真实任务完成率。

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容