文 | 字母 AI
坏了,我写的文章被罗福莉打脸了,结结实实。
事情是这样的,小米发布 MiMo-V2-Pro 的时候,我曾写过一篇文章,叫《在大模型这件事上,雷军居然给马斯克打样了》,在该文的最后一部分对小米提出质疑。
我说 "MiMo-V2-Pro 只公布了 SWE-bench Verified 这个公认有水分的评分结果,却没有公布 SWE-bench Pro 这个真正抗污染的测试成绩。"
结果小米在 V2.5-Pro 的宣传中,直接把 SWE-bench Pro 放在了宣传榜第一的位置,还特地在 OpenRouter 的模型描述中标注 "top rankings on benchmarks such as ClawEval,GDPVal,and SWE-bench Pro"。

虽然对于一般人来说,被打脸是一件很难堪的事情,但我不一样,我觉得这是好事,因此我也乐意被打脸。
我被打脸,说明小米的模型进步了,性能更好了。
MiMo-V2-Pro 的发布时间是 3 月下旬,相当于小米只用了 1 个月的时间,就开发出了下一代的模型。
至少在态度上,小米已经不再回避更 " 硬核 " 的测试集了。
那么小米这次的新模型 V2.5 和 V2.5-Pro 到底如何呢?
把 agent 能力当产品中心
小米这次最值得看的,是把它 "Agent 能力、长上下文、多模态、token 效率、第三方框架适配 " 打包到了同一代产品里,榜单成绩反倒不是重点。
MiMo 的这次新模型发布,整体叙事非常 " 工程化 ",反复都在讲 harness 和 Claude Code 以及 OpenClaw 这类开发者工作流语境,基本上除了开头那张图以外,就没怎么再提过模型性能。
这事本身就非常小米。
MiMo-V2.5-Pro 的重点是 " 长程 agent",聊天只是附带功能。它在合适 harness 下可以持续完成超过 1000 次工具调用的长任务。
小米给了三个很复杂的 demo。
第一个是 4.3 小时、672 次工具调用完整写出 SysY 编译器。

参考项目通常需要北大计算机专业学生花费数周时间。MiMo-V2.5-Pro 在隐藏测试集上拿到了 233/233 的满分。
模型一层一层地构建编译器,没有反复试错。先搭建完整管道,完善 Koopa IR 部分拿到 110/110,然后是 RISC-V 后端 103/103,最后是性能优化 20/20。
第一次编译就通过了 137/233 个测试,59% 的冷启动通过率说明架构在运行任何测试之前就已经设计正确。在第 512 轮时,一次重构导致 lv9/riscv 退步了两个测试,模型诊断出问题,恢复,然后继续执行任务。
长程工作需要的正是这种结构化、自我纠错的能力。
第二个是 11.5 小时、1868 次工具调用做出可用的视频编辑器桌面应用。

第三个是接入 ngspice 仿真闭环做模拟电路 FVF-LDO 设计优化。

模型需要确定功率晶体管尺寸、调整补偿网络、选择偏置电压,使 6 个指标同时满足规格要求,包括相位裕度、线性调整率、负载调整率、静态电流、PSRR 和瞬态响应。一个训练有素的模拟设计师通常需要花几天时间完成这个规模的项目。
小米把 MiMo-V2.5-Pro 接入 ngspice 仿真循环,使用 Claude Code 作为 harness。
在大约 1 小时的闭环迭代中,模型反复调用模拟器、读取波形、调整参数,最终产生了一个每个目标指标都满足的设计,其中四个指标比自己的初始尝试改进了一个数量级。
上面 3 个 demo 有点难看懂是吧?没关系,其实简单来讲,就是小米想要展示 MiMo-V2.5-Pro 它能连续干几小时、调用上千次工具、最后还真地把产品给你做出来。
重点不是 " 聪不聪明 ",是它 " 能不能把活干完 "。
在这些实验中,V2.5-Pro 展现出了一种 "harness awareness"。它充分利用 harness 环境提供的能力,管理自己的记忆,并塑造自己的上下文如何被填充以达成最终目标。
小米还把多模态和 agent 能力合到一起。原生视觉和音频理解,Video-MME 达 87.7 分,接近 Gemini 3 Pro 的 88.4 分。Claw-Eval 多模态子集 23.8 分,与 Claude Sonnet 4.6 持平。
最长支持 100 万 token 上下文,agent 性能超过上一代 MiMo-V2-Pro。在自家 MiMo Coding Bench 上,MiMo-V2.5 达到接近 Pro 级体验,但成本只要一半。
一般 AI 厂商,往往是 " 代码强的一个模型、多模态强的另一个模型、长上下文再单独区分一个版本 "。
MiMo-V2.5 把 " 看、听、推理、调用工具 " 全都放到一个统一模型里,可以理解更多的需求,也可以执行更复杂的任务,这比单纯刷分要有意义。
MiMo 还把 "token 效率 " 当成了卖点,说白了,就是省钱。
在 ClawEval 上,MiMo-V2.5-Pro 以约 7 万 token/trajectory 达到 64% Pass^3,相较 Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4,在相近能力下少用约 40% 到 60%token。
为什么能省这么多呢?因为 agent 的真实成本来自长链条工具调用、反复读写上下文、持续推理,单轮问答只是小头。谁在这件事上更省 token,谁在生产环境里就更可能被用。
很多模型虽然宣称支持超长上下文,但真跑起来很贵。
小米这次直接取消 1M 上下文的额外倍率,本质上是在降低 Agent 试错门槛。
小米应该是想要瞄准那些,跑长期、复杂任务的用户,因为这种任务反而会更省钱,对于一般用户来说,其实很难感受到 MiMo 省钱的地方。
雷军要 " 卖算力 " 了?
随着 V2.5 的发布,小米完善了他们 4 月 3 号发布的 Token Plan 订阅体系,从 Lite 39/ 月到 Max 659/ 月一共 4 档,新增夜间 8 折、包年 88 折等运营商式定价策略,并对老用户全量重置已用 Credits。
这套打法相当于是告诉你,小米现在是一个正经卖 token 的公司了。
MiMo 的 Token Plan 本质上是在构建一个非硬件依赖的经常性收入模型,这点非常 " 不小米 "。
而且小米特地选在夜间发布,就是为了对准美国的时间,以拓展国际化市场。
当小米自建算力集群达到一定规模后,每增加一个付费用户的成本极低,但 ARPU(每用户平均收入)可以通过差异化定价持续提升。
这是典型的 SaaS 商业模式,毛利率可以达到 70% 以上,比汽车手机家电都要高。
Token Plan 适配 Claude Code、OpenClaw 等主流 AI 开发框架,实际上也是在争夺 AI 原生应用的底层基础设施入口。
更深一层,如果小米汽车、小米 IoT 设备的第三方应用都基于 MiMo 开发,雷军就掌握了整个生态的 " 算力税收权 "。每一次 API 调用都是一次变现机会。
不过,我认为小米 Token Plan 能否起飞的核心,在于能否兑现 V2.5 系列的开源承诺。
小米从手机时代开始,走的就是开源路线。虽然说开源意味着社区开发者可以免费部署和微调模型,表面上会蚕食 Token Plan 的付费用户。
但真正的商业逻辑在于,开源吸引长尾开发者,他们贡献代码、优化模型、构建应用,形成生态繁荣。
闭源 API 服务高频高价值场景,企业客户为了稳定性、SLA 保障和技术支持,依然会选择付费 Token Plan。
开源社区反哺模型迭代,小米可以低成本获取海量真实场景的微调数据和 bug 反馈。
这个逻辑在行业里已经被验证过。
Meta 的 Llama 系列开源后,社区贡献了大量微调版本和应用案例,反过来巩固了 Meta 在 AI 基础设施层的话语权。小米如果能走通这条路,Token Plan 就会成为连接开发者、企业客户和小米生态的枢纽,订阅服务只是它的一个侧面。
从产品定位看,MiMo-V2.5 和 V2.5-Pro 形成了明确的分层。
V2.5 是 " 原生全模态 + 强 agent 能力 ",适合需要多模态输入的日常开发任务。V2.5-Pro 是 " 长程 agent",适合需要持续数小时、上千次工具调用的复杂工程任务。这种分层的逻辑是场景适配,性能高低只是表象。
对小米来说,Token Plan 的意义不只是多一条收入来源。它是小米从 " 硬件公司 " 到 "AI 公司 " 叙事转型中最重要的一块拼图。
小米过去的商业模式是 " 硬件 +IoT 生态 ",用性价比硬件获取用户,用 IoT 设备构建生态。这个模式的天花板在于硬件销量和 IoT 设备渗透率。
Token Plan 是雷军的新尝试。用 AI 能力获取开发者,用开发者构建应用生态,用 API 调用持续变现。这个模式的天花板在于 AI 能力的强度和生态的活跃度。
至少比从北京到上海全程直播要更赚钱一些。
如果 MiMo 能在开发者社区站稳脚跟,小米就有机会从 " 卖手机的公司 " 变成 " 提供 AI 基础设施的公司 "。这个转变的商业价值,远远超过 Token Plan 本身的订阅收入。
MiMo-V2.5 挑刺
那么既然小米喜欢打我的脸,那我也乐意再给他们挑挑刺。
目前 SWE-bench Pro 最高分是 Claude Mythos Preview 的 77.8%,MiMo-V2.5-Pro 在 SWE-bench Pro 上拿到 57.2%,距离这个新巅峰还有些遥远。
此外,MiMo-v2.5 在通用高阶推理天花板的关键测试集中表现一般。MiMo-V2.5-Pro 在 Humanity's Last Exam 上是 48.0%,而 GPT-5.4 是 58.7%。
在 " 高阶知识密度 + 跨学科抽象推理 " 上,和最顶级模型还有一段距离。
更重要的是,目前小米还缺乏可复现的硬证据。
小米自家的 MiMo Coding Bench、SysY 编译器 233/233、11.5 小时做视频编辑器、模拟电路 EDA 闭环优化、"harness awareness",它们都是 " 高光 demo" 或 " 实验室 showcase",作为 " 开源 "(虽然暂时还没开源)的模型,它没有完全可复现、可横向对比的公开标准。
这件事其实 " 不太开源 "。
这是最好的一次,还是平均水平?prompt、工具、权限、上下文注入方式是什么?成功率是多少?成本是多少?换一批任务还稳不稳?
1868 次工具调用、672 次工具调用,这些超长链路中,有多少次是无效调用、重复调用、错误调用?如果这些细节不公开,demo 的说服力就会打折。
"harness awareness" 这个说法很抓眼,但不够有说服力。
这个词听起来很高级,那它到底是模型真的学会了如何管理 agent runtime?还是说只是因为这个任务的 harness 写得好、任务设计得顺,还是评测环境对它比较友好?
我现在很难判断。
小米强调 V2.5-Pro 具备 "harness awareness",但这也意味着模型高度依赖特定 harness(Claude Code、OpenClaw 等),小米没有自己的 harness 工具。
如果某天别人平台策略变了,那么小米能做的事情,只能是重新调整模型去适应别人。
还有一点也非常重要,那就是小米啥时候才能开源。
罗福莉曾经说过 "MiMo-V2 系列模型会在技术足够稳定、真正配得上开源的时候,开源 "。现在 2.5 都出来了,开源的也只有 V2 Flash 这一款,其他 V 系列模型,尤其是 V2 Pro,并没有开放权重。
" 即将开源 " 和 " 已经开源 " 之间还是不太一样的。
V2.5 系列同样声称 " 即将全球开源 ",但 " 即将 " 是一周、一个月还是半年?
这个问题的答案,决定了 Token Plan 到底是真正的商业化起点,还只是一次营销噱头。
现在它看起来已经很能打,但离 " 让大企业放心上生产 " 还差一层更硬的工程披露,比如说更完整的公开 benchmark 表,或者更透明的失败案例之类的。
MiMo-V2.5 和 V2.5-Pro 的发布,对小米来说是一次重要的技术证明。
它证明了小米只需要 1 个月可以从一个被质疑 " 回避硬核测试 "的状态,迭代到一个敢于正面公布 SWE-bench Pro 成绩、并且成绩接近全球顶尖模型的状态。
这个速度本身就说明了小米在 AI 上的投入强度和团队执行力。
Token Plan 是一个好的开始,但它能否真正吸引到足够多的开发者,取决于开源承诺能否兑现、服务稳定性能否保证、以及生态能否真正繁荣起来。
小米现在站在一个关键的十字路口。往前走,它有机会成为一家真正的 AI 基础设施公司。往后退,它可能只是又多了一个营销故事。
时间会给出答案。