6 月 1 日儿童节,大伙都收到礼物了没?
如果你没收到,也不必忧伤,不必心急。因为咱们国产模型 MiniMax,今日在官网准备了一份大礼——发布了他们最新的模型,MiniMax M3。
作为国产模型里数得上号的有力竞争者,MiniMax 这一发,多少是让人有点期待的。
关注 AI 圈的差友们应该都感觉到了,咱们国产模型在 5 月份是真卷起来了:先是 DeepSeek V4 直接官宣永久降价,GLM、Qwen 的口碑也是肉眼可见地往上走。
而这么一对比,MiniMax 的用户们,最近可算是爱之深、责之切了:别人都吃上好的了,给我也吃点呗?
这不今天就来了嘛,先来看看跑分。

顺带,它还是个能看图、看视频的原生多模态模型,甚至能操作电脑桌面。在现在的 Agent 时代,这种能力肯定是越强越好的。
不过,跑分是一回事,实际使用当然还得看实测。
比如世超的同事中,就有一位 MiniMax 忠实粉丝,几个月前就老跟我说,MiniMax 哎呀太好用了,我要付费使用。

" 比如有一次,我让 OpenClaw 帮我找一下附近的麦当劳。
结果 Minimax 发现附近的麦当劳离得太远,然后以 " 快餐 " 为关键词,向我推荐了附近一些同样耗时短、能满足赶时间需求的中式快餐。他能理解到我想吃麦当劳是因为我想赶时间。"
" 但在一些活上就不尽人意了,比如某次询问日程问题时,它把‘前天’理解成了 yesterday,硬生生搞错了时间。"
于是在 M3 发布后,我也第一时间询问了他的意见。
他的评价是,嗯,确实有进步。
具体啥表现,世超也尝试了下。
首先,这个模型的原生多模态能力是实打实的,所以图片、视频,咱都能狠狠往里放。
比如,世超最近 Vibe Coding 了一个视频,这个视频里的元素都是由 AI 写的代码实现的。
于是我把它丢给了 Minimax M3。
它的解读基本上没啥问题,做这个视频的初衷就是把 21 世纪初的一些互联网审美做一个赛博化处理,诶,甚至还认识 " 差评 ",除了艺术字没识别出来,也无伤大雅。


于是它一条路一条路自己试,先查电脑里装没装视频下载工具,发现没戏。然后想走第三方镜像站,又失败了。接着又现搭了个脚本,也没成。。

总结得确实不赖,时间切分得很细,基本上提炼出了所有关键信息。


幻觉的概率下降也很明显,之前处理问题时,顾头不顾尾的问题也没再遇到了。

不过,在测了一点其他问题之后,我体感上感觉有点不大对劲了。这个模型,好像是个 OpenClaw 的特化模型,除了在 OpenClaw 里用着还行,其他场景,偶尔会有点卡手。。。
比方说这个经典色盲问题,我同时询问了 DeepSeek v4 flash,Claude 4.7 Opus 和 MiniMax M3。
结果,回答的最好的居然是 DeepSeek,不仅看出来了,女儿是色盲,还看出来父亲被绿了。。



因为我不会复原,必须让 AI 完成我未完成的愿望。

诶,MiniMax 的结果,就有点难绷了,拧着拧着,方块遁入虚空了。。
所以,世超测完还是能给大伙来点建议的。如果你日常用的比较多的是 OpenClaw 这种 Agent,那用 MiniMax M3 作为主力模型,其实是没多大毛病的,体验上来说还算优秀。
但如果日常的任务,是难度比较大的编程或者复杂任务,咱还是推荐咱们的 DeepSeek V4,或者 GPT5.5、Claude 4.8 之类的国外模型。
总的来说,MiniMax 这波更新,不算是惊艳吧,但也算是一次实打实的进步。
它更像是一双挺合脚的跑鞋,在 Agent 这条赛道上跑,是越来越顺的;但别的方面,其实可以有更优秀的模型选择。
不过话说回来,毕竟 Agent 才是接下来的主战场,不管是国内外模型,最近在卷的,也就编程和 Agent 能力了。而且,最近的 DeepSeek 降价、Qwen 崛起,MiniMax 上新,国模的快速进步也是我们看得见的。
至于那些还不够好的地方,也不急。毕竟国产模型进步的速度,肯定是能跟上咱吐槽的速度的。
撰文:不咕
编辑:江江 & 面线
美编:素描
图片、资料来源:
Minimax 官网


