现在的 AI 大模型,越来越像是一个许愿机了。
人类想要,人类得到。
不管是让 AI 写首小诗,还是让 AI 来帮我们点个外卖,还是直接做些游戏。。。
大模型能做到的事情越来越多。
甚至可以让它根据你的需求,直接帮我们定制一个独一无二的应用出来。
而今天,Kimi 开源的新模型 Kimi 2.5,再次把大模型干活的能力推到了一个全新的高度。

光看跑分测试就能发现,Kimi 这次更新的模型,完全就是冲着解决 " 怎么让 AI 能更好地干活 " 这个问题去的。整个评测指标的设计,也明显围绕着实际生产力展开。
不仅在 Agent 测试,也就是模型动手干活的能力测试里全面领先,而且同时在写代码、图片识别、视频理解这三个方面全面开花,作为一个开源模型,能和 GPT、Claude、Gemini 这些顶尖的闭源模型打个有来有回。


结果发现,Kimi 在跑分成绩和 GPT5.2 差不多的情况下,只花了 GPT 的二十分之一,甚至是五分之一的成本,这还要啥自行车了兄弟们。。。
模型性能与成本对比分析

先来个简单的任务试试水,让 Kimi 来帮我统计一下,B 站上的差评君,在过去一年里发了多少视频,这些视频的数据质量如何。
这个任务如果让人工来做的话难度也不高,无非是需要花点时间,去 B 站上把视频一个一个搜索,然后把结果一个一个的粘贴到 Excel 表格里。


接下来,世超又测试了一下 Kimi 这回重点宣传的 Agent Swarm 能力,也就是让一群 Agent 来帮你一起干活。
毕竟单个 Agent 的能力是有极限的,就和我们人类需要分工合作一样,AI 在处理复杂任务的时候,为了避免干活干到一半报错,有时也需要在 AI 和 AI 之间展开合作 .
Kimi 官方也在测试中发现:随着问题越来越复杂,让 AI 组团处理的效率就越好。

结果没想到 Kimi 在收到了这个任务之后,直接原地给我开了家数据调研公司,拆分出了 " 市场格局分析师 —— 东坡 "、" 技术对比专家——李斯特 "、" 产业链研究员——小杨博士 ",这一群 Agent 们。






这哥们为了让自己上班摸鱼的时候能有点背景音乐,用 Kimi K2.5 搓了个能收听全球 33 个电台的网站。
写出来的代码审美也很不错,脱离了 AI 生成代码时常见的神秘渐变蓝紫色模版,不管是太空中缓缓转动的地球,还是角落的像素风播放器都非常解压。

于是世超决定同步来测试一下 Kimi K2.5 的多模态能力和代码能力。
不知道差友们有没有过这种经历:在刷短视频的时候,总能刷到那种看起来特别解压、逻辑甚至有点 " 弱智 " 的广告小游戏。

实际玩的游戏和大家刚才刷到的短视频不能说是风马牛不相及吧,只能说是八竿子打不着了。
又上当了。
为了弥补这种被欺骗的遗憾,世超这次决定让 Kimi 直接把广告里的游戏给 " 抠 " 出来。
自己动手,丰衣足食。
当然,为了给 Kimi 上点强度,我决定不像往常一样,写个大几千字的提示词来描述这个小游戏应该怎么玩。
反而是直接丢了一个广告小游戏的视频给它,让 Kimi 想办法看视频,自己来生成能生成这个游戏的提示词出来。
Kimi 的反应也很快,马上把视频给截出来一帧一帧的看,然后拆分出了三个专家来理解这个游戏视频,给出了一套提示词。



还只能支持触碰操作,甚至你仔细看上面这个 GIF 的话,你会发现鼠标滑动的方向,和小人运动的方向实际上是相反的。
第一次尝试的结果只能说是能跑,但是跑得不够完美。
但是好在咱们可以通过和 Agent 的对话来快速的修复这些问题,而且 Kimi 还有个很有趣的设计,大家如果平时喜欢用 AI 写代码的话肯定会非常有感觉。
众所周知,想让 AI 修改画面里的特定元素的话,其实是个非常麻烦的事情,你需要准确的描述你要改的元素在哪里,叫什么,长什么样,不然 AI 可能就会听不懂你在说什么,开始随地大小改,乱改一通。
而 Kimi 为了让大伙能更快的告诉 AI 应该改哪里,直接在它的预览界面增加了一个截图的编辑系统,你可以直接把画面上想改的东西给圈圈画画,然后把这些截图丢给 Kimi 让它来把 Bug 给修改。

在要求了 Kimi 修复了小人运动方向、延长了游戏的跑道之后,这个游戏就变成了这样:

看着屏幕上那个被我不到半小时就 " 调教 " 得服服帖帖的小人儿,世超心里确实有种莫名的成就感。
说实话,从丢过去一段几十秒的视频,到最终拿到一个逻辑通顺、手感丝滑的小游戏,整个过程我几乎没怎么动脑子去想代码逻辑,更多的是在扮演一个 " 监工 " 的角色:发现问题,截图圈出来,然后看着 AI 把活儿干完。
总而言之,从信息收集到代码编程,从 Office 办公到多 Agent 协同。这次 Kimi 的 K2.5 在解决复杂任务上的表现相当硬核。更关键的是,它的使用门槛极低,不仅仅是说上手容易,更是指它的价格便宜。
而且还开源,这种极致的性价比,意味着我们可以毫无顾忌地把繁琐的工作丢给 AI,而不用担心 AI 干活干到一半,就直接把我们的钱包给刷爆了。
这让世超想起杨德昌导演在电影《一一》里那句经典的台词:
" 电影发明以后,人类的生命,比起以前延长了至少三倍。"

而现在,大模型也在做类似的事情。
它不是字面意义上地让你活得更久,而是让你在有限的时间里,拥有了三倍、甚至十倍的产出能力。
我们可以把复杂的 Office 操作、枯燥的数据收集、掉头发的代码撰写,都丢给大模型,让自己直接享受结果,或者去思考更有创造力的事情。
以前因为怕麻烦、怕花钱而不敢尝试的想法,现在都可以丢给这一群 AI Agent 去试一试。
人类以后只需要学会怎么动嘴就行,剩下的 " 脏活累活 ",就放心交给这个 AI 项目组吧。
撰文: 早起
编辑: 江江 && 面线
美编: 素描
图片、资料来源:Kimi 官网


