闻乐 发自 凹非寺
量子位 | 公众号 QbitAI
先别聊什么参数、benchmark 了,来看个狠活——
米版 "macOS Sequoia" 桌面系统(doge)。
开机动画、用户登录、窗口管理、Dock 栏缩放、Spotlight 搜索、明暗显示风格、Launchpad 启动台,全都有。
还自带 54 个原生应用,打开计算器能算账,打开日历能看日子,打开地图能查地址,打开备忘录能写东西,Grapher 还能画 3D 函数图……拖一拖转一转,挺像那么回事。
甚至!还有个能真实冲浪的 Safari 浏览器,好你个 "Aqqle"(狗头 .jpg)。
关键这个系统是 AI 4 个小时全程无中断、无人类接管,就这么一直肝出来的。
没错,用的就是主打长程任务、模糊指令遵循,跻身国产 Agent 第一梯队的小米MiMo V2.5 Pro
小米最新发布的 MiMo V2.5 系列,包含 Pro 旗舰 Agent、全模态基座、TTS 语音合成、ASR 语音识别四大模型,综合实力对标国际顶尖水准。
就在今天凌晨,MiMo-V2.5 系列模型(包含 base 版)已经正式官宣开源,权重全量开放
4 个月,从入场到进入开源第一梯队,小米这位 " 超速 " 选手,咱得扒一扒。
国际顶模的饭桌,它坐上去了
先看看成绩单。
首先,新一代模型在通用智能体能力、复杂软件工程与长程任务三大核心维度,相较前代 MiMo-V2-Pro 实现显著跃升。
国际竞技场上,在 Coding Agent、SWE-Bench Pro、GDPVal-AA 等多项权威基准测试中成绩逼近 Claude Opus 4.6、GPT-5.4 等顶尖闭源模型,甚至大幅超越 Gemini 3.1 Pro。
这么看下来,MiMo V2.5-Pro 不仅跻身国产开源第一梯队,而且已经跟 Claude Opus 4.6、GPT-5.4 等国际顶模坐在一张桌子上吃饭了。
要说划个重点,小米这次升级,最主要的是长周期任务和模糊指令遵循能力。
官方数据显示,它可以稳定支撑超千次工具调用的长周期任务,自主完成人类专家数天甚至数周的高难度工作。
就拿北大 SysY 项目来说,从零写一个完整编译器这种级别的复杂工程,MiMo V2.5-Pro 自己吭哧吭哧就能从头肝到尾,词法分析、语法分析、中间代码生成、RISC-V 后端、性能优化……全包。
4.3 小时、672 次工具调用,任务中间都能不崩、不跑偏、不失忆,拿到 233/233 的满分。
还有个事儿必须提一嘴——Token 效率
在 ClawEval 标准 Agent 任务中,MiMo 单轨迹只用约 7 万 Token,就能达到 64% 的 Pass 通过率。
而 Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4,普遍在 12-18 万 Token。
同样的能力,一样的效果,MiMo 直接省了 40%-60% 的成本
这 "Token 半功倍 " 实打实的省钱能力,咱还真得点个赞。
不只代码强,小米模型的语音能力也齐活了。
V2.5 家族里的 TTS 支持文本描述造音色、零样本克隆,不用上传参考音频,直接用文字描述就能生成想要的声线;
视频地址:https://mp.weixin.qq.com/s/TX5_KfchdvfWGd0iltwcdw
ASR 拿到中英 SOTA,粤语、川语、吴语、闽南语都能识别,连带伴奏的歌词都能精准转写。
而且,MiMo-V2.5-Pro 和 MiMo-V2.5 都标配了 1M 上下文窗口,音频模型也大幅进化,从基座到 TTS、ASR 全栈升级,一个不落。
好好好,小米这波根本不是单点突围,这是直接端出了一整套 Agent 全家桶啊……
那它到底有多能跑?咱上实测!
实测,真不虚!
必须得来扒一下开头那个 macOS 系统的代码层,毕竟效果是真行。
整个项目由 React 18+TypeScript+Zustand+Tailwind CSS 以及 Vite 构建,68 个组件撑起了 54 个原生应用。
XcodeApp 里面塞了一个真实可浏览的网页引擎、包含完整的国际象棋逻辑的小游戏,支持 3D 函数绘图的 Grapher 等等。
窗口管理系统也不是简单的弹个框,做了一套完整的窗口状态机:拖拽、缩放、最小化、最大化、焦点切换、z-index 层级管理、还复刻了 macOS 标志性的 Traffic Lights 三色灯逻辑。
4 个小时,MiMo-V2.5 Pro 自己把这套架构搭起来、把 54 个应用一个个填满、把窗口管理的状态同步理顺。
全程无中断、无人类接管,这编程能力属实是不虚,真把人类程序员给解放了。
然后,我把模型接到了龙虾里,给了一个超长提示词,让它从零开发了一个 3D 像素风农场模拟游戏。
什么 3D 场景搭建、像素风格美术、作物生长系统、天气循环、玩家交互逻辑……全都给我塞进去。
MiMo-V2.5 Pro 一路肝下来,从架构到核心玩法,工程量大环节多的农场给我搞定了。
最终交出来的版本质感很足。画面里是三种不同颜色划分的农场区域,外围还点缀着像素风花草点缀氛围;
商店里能买到胡萝卜、番茄、南瓜三种作物,游戏里不仅有晴雨交替的天气变化,还做了实时更新的金币计数和像素小人的体力条。
那就开始种地吧!
进游戏第一件事,先锄地。扛着锄头走到空地上,DuangDuangDuang 几下,一块耕地就出来了。
然后去商店买种子,番茄、小麦、胡萝卜……选完往兜里一揣,回到地里一颗颗种下去。
种完浇水,看着小苗苗冒头,作物成熟之后会有闪光效果,这时候就能收获了,收割完再去商店卖掉,金币叮叮当当到账了~
从场景装饰到核心玩法,一套完整闭环直接拉满,种地→浇水→收获→卖钱→再买种子→再种……好,循环起来停不下,赛博种地也太上头了!!
接下来,我用 MiMo-V2.5 做了一个山野风格治愈系自然漫游数字手账本。
和小游戏不一样,咱这次就给了一句大白话:
帮我做个山野风格的治愈系网站,像一本旅行手账,自然、安静、有呼吸感,那种逃离城市走进旷野的感觉。
没给配色、没给字体、没给布局、没给动效方案,啥都没给。
这类任务考验的就是模糊指令理解了,山野到底是个啥感觉?治愈系配色要怎么搭?
MiMo-V2.5 的理解是:大地色系、手写感字体、墨水质感、以及柔和的动画。
于是,我就得到了一个细节拉满、内容丰富的手账。
山峦背景做视差,滚动的时候远近山层拉出纵深感,画面上还飘着小粒子。鼠标一挪,柔和光晕就跟过来了。
复选框点击还有弹跳动画,全文滚动的时候每个元素都是淡入淡出,氛围感满满。
甚至最后的手账本还有交互功能,行囊里的装备可以标记选择,这个小设计属于意外之喜了。
没告诉它具体用什么颜色、什么字体,它自己从山野这个词里读懂了我要的氛围,自行完成了交互、视觉和动效。
这种模糊指令遵循能力,最适合普通人上手,不用把提示词写成 PRD(产品需求文档),大白话也能出好东西。
代码能力看完了,语音这块儿咱也得试试!
让 MiMo-V2.5-TTS 一个人撑起一台戏,分别生成了三种角色声音,年轻理性女生音、中年夜市老板音、吃货少年音,来场减肥辩论!
视频地址:https://mp.weixin.qq.com/s/TX5_KfchdvfWGd0iltwcdw
出来的效果嘛……各有各的味儿,毫不串戏~
最后试试 ASR 语音识别。
丢了一段粤语过去,转写结果基本准确,只有最后一句的 " 欢迎来到香港 " 的 " 来 " 听错了,不过无伤大雅,识别度达到 99.999%。
视频地址:https://mp.weixin.qq.com/s/TX5_KfchdvfWGd0iltwcdw
只能说,小米这波语音能力补齐的姿势,属实优雅。
4 个月,它拿出了真东西
效果看完了,最后咱聊聊这支团队。
小米 AI 团队这波节奏,确实有点超出预期,从去年年底 V2 系列进场,到现在 V2.5 冲到开源第一梯队,前后也就 4 个月时间。
放在行业里,正常节奏基本上是 8-12 个月,小米相当于直接把周期砍了一半。
快也就算了,它东西还齐,旗舰、全模态、全链路语音模型一口气全更完。
好好好," 赶工期 " 赶出顶尖全家桶,也是头一回见(doge) 。
当然了,咱用户虽然看中模型能力,但性价比咱也真的很在乎。
小米这次全系升级到 1M 上下文,但凭借着超高 Token 效率,计费规则反而简化了。
1M 和 256K 采取同样的 Credit 倍率,Pro 从 4x 降到 2x,标准版从 2x 降到 1x。
加上夜间再打 8 折(北京时间 00:00~08:00)Token Plan 用户 Credits 全量重置,这组合拳打下来,就俩字——
普惠。让普通用户和开发者都能低成本体验高阶 AI 能力。
这不,国外开发者马上种草了。
技术做得好,落地普及也得跟上。小米显然懂这个道理,于是在打折之外,又端出 MiMo Orbit 这个开发者扶持计划。
这个计划分两块:
一块是百万亿 Token 创造者激励计划,面向 AI 开发者发放 100 万亿 Token,完全免费。全球个人开发者、团队、企业都能申请参与。
而且小米方面会认真评估每份申请,按需发放,确保 Token 给到真正需要的人手里。
另一块是面向全球新兴 Agent 框架,提供起步阶段的专项支持。
不管你的框架做到什么阶段、用户规模多大,MiMo 都愿意当你的底层模型引擎。
不仅限免接入,还会搞定底层适配技术的技术支持,帮你把用户体验门槛拉低到……几乎没有门槛。
我看明白了,这是个 " 手牵手我们一起走,创造幸福的生活~" 的大动作(期待 .jpg)。
放在当下这个节点看,其实也不难理解——
国际上几家家底厚的模型已经把生态铺得很稳,开发者习惯基本固定,后来者想挤进去并不容易。国产模型想要站稳,速度、实力、诚意三样缺一不可。
小米的打法很明确:用更快的迭代抢时间,用更强的能力留用户,用真金白银降低大家的尝试成本。
算不算 " 弯道超车 " 不好说,但至少态度和动作都很干脆。
至于能不能真正站稳,虽然最后还是得开发者说了算,但就这份答卷来看,小米这支 AI 团队是真 · All in。
下一个 4 个月,它会掏出什么呢?我先蹲一波~
体验地址:https://aistudio.xiaomimimo.com/