关于ZAKER 合作
差评 39分钟前

实测 Kimi K2.5 新版本,一键让一群 AI 来给我打工。

现在的 AI 大模型,越来越像是一个许愿机了。

人类想要,人类得到。

不管是让 AI 写首小诗,还是让 AI 来帮我们点个外卖,还是直接做些游戏。。。

大模型能做到的事情越来越多。

甚至可以让它根据你的需求,直接帮我们定制一个独一无二的应用出来。

而今天,Kimi 开源的新模型 Kimi 2.5,再次把大模型干活的能力推到了一个全新的高度。

能帮你干活的不再只是单个的 AI agent 智能体,而是一群 Agents。

光看跑分测试就能发现,Kimi 这次更新的模型,完全就是冲着解决 " 怎么让 AI 能更好地干活 " 这个问题去的。整个评测指标的设计,也明显围绕着实际生产力展开。

不仅在 Agent 测试,也就是模型动手干活的能力测试里全面领先,而且同时在写代码、图片识别、视频理解这三个方面全面开花,作为一个开源模型,能和 GPT、Claude、Gemini 这些顶尖的闭源模型打个有来有回。

在大模型真刀实枪线上 PVP 的正面战场 LLMarena 里,Kimi 更是仅次于 Claude 和 Google 这俩老伙计。

而且在成本上还是个传奇省钱王,Kimi 在跑完分之后,还特意留意了一下,看看这次测试跑分花了多少钱。

结果发现,Kimi 在跑分成绩和 GPT5.2 差不多的情况下,只花了 GPT 的二十分之一,甚至是五分之一的成本,这还要啥自行车了兄弟们。。。

模型性能与成本对比分析

当然,经常看大模型发布的差友们都知道,跑分仅供参考,实战才是王道。为了验验 Kimi K2.5 的成色,世超也是在模型发布的第一时间帮大家来体验了一波。

先来个简单的任务试试水,让 Kimi 来帮我统计一下,B 站上的差评君,在过去一年里发了多少视频,这些视频的数据质量如何。

这个任务如果让人工来做的话难度也不高,无非是需要花点时间,去 B 站上把视频一个一个搜索,然后把结果一个一个的粘贴到 Excel 表格里。

结果在两轮对话后,Kimi 就通过写代码的方式,成功的把大家去年一年来的工作成功给收集了下来,在数据的准确程度上也没出啥岔子。

很稳啊,说真的,如果 Kimi 能早一个月发布的话,那世超就不用跨年夜熬夜扒数据,自己手动写报告了。。。

接下来,世超又测试了一下 Kimi 这回重点宣传的 Agent Swarm 能力,也就是让一群 Agent 来帮你一起干活。

毕竟单个 Agent 的能力是有极限的,就和我们人类需要分工合作一样,AI 在处理复杂任务的时候,为了避免干活干到一半报错,有时也需要在 AI 和 AI 之间展开合作 .

Kimi 官方也在测试中发现:随着问题越来越复杂,让 AI 组团处理的效率就越好。

世超也简单试了一下这个 Agent 集群功能。最近国产 GPU 在大 A 市场不是很火么,那么这些公司到底发展的咋样?于是就准备让 Kimi 去尽可能详细地调研一下这行的发展情况。

结果没想到 Kimi 在收到了这个任务之后,直接原地给我开了家数据调研公司,拆分出了 " 市场格局分析师 —— 东坡 "、" 技术对比专家——李斯特 "、" 产业链研究员——小杨博士 ",这一群 Agent 们。

然后再让这一堆 Agent 分头行动,从不同的视角收集不同的信息。

等它们都完成了工作后,最后再把这些不同维度的信息来一起做个整合,生成了一份最终的报告。

世超仔细看了一下这份报告,不仅讨论了市场规模、行业龙头、产品的硬实力指标,就连上下游产业线都给分析了一波。光看信息的思考维度和广度,确实比之前用 GPT 和 Gemini 的 Deep Research 做出来的要更全面,逻辑也更顺畅。

而代码能力就更不用多说了,编程一直是 Kimi 的强项,世超随便截了个 B 站的主页丢给它,结果 Kimi 就自己跑回去哼哧哼哧的写代码画图来做了个七七八八。

世超还看到有朋友给咱们分享了一个他拿 Kimi 做出来的 demo。

这哥们为了让自己上班摸鱼的时候能有点背景音乐,用 Kimi K2.5 搓了个能收听全球 33 个电台的网站。

写出来的代码审美也很不错,脱离了 AI 生成代码时常见的神秘渐变蓝紫色模版,不管是太空中缓缓转动的地球,还是角落的像素风播放器都非常解压。

最后,我们来点更刺激的测试。到了 2026 年,单纯的出题目,测试大模型的代码能力已经不稀奇了。

于是世超决定同步来测试一下 Kimi K2.5 的多模态能力和代码能力。

不知道差友们有没有过这种经历:在刷短视频的时候,总能刷到那种看起来特别解压、逻辑甚至有点 " 弱智 " 的广告小游戏。

但是当你真的点进去的时候,就发现刚才那个解压小游戏直接不见了。

实际玩的游戏和大家刚才刷到的短视频不能说是风马牛不相及吧,只能说是八竿子打不着了。

又上当了。

为了弥补这种被欺骗的遗憾,世超这次决定让 Kimi 直接把广告里的游戏给 " 抠 " 出来。

自己动手,丰衣足食。

当然,为了给 Kimi 上点强度,我决定不像往常一样,写个大几千字的提示词来描述这个小游戏应该怎么玩。

反而是直接丢了一个广告小游戏的视频给它,让 Kimi 想办法看视频,自己来生成能生成这个游戏的提示词出来。

Kimi 的反应也很快,马上把视频给截出来一帧一帧的看,然后拆分出了三个专家来理解这个游戏视频,给出了一套提示词。

接下来,我再让 Kimi 根据这个提示词来直接生成游戏。

看着这五个 Agent 员工哼哧哼哧工作几分钟后,世超就收获了第一版的复制小游戏。

说实话,这版小游戏的 bug 还是蛮明显的。跑到一半就消失了的跑道,还有打 Boss 时毫无交互的反馈。。。

还只能支持触碰操作,甚至你仔细看上面这个 GIF 的话,你会发现鼠标滑动的方向,和小人运动的方向实际上是相反的。

第一次尝试的结果只能说是能跑,但是跑得不够完美。

但是好在咱们可以通过和 Agent 的对话来快速的修复这些问题,而且 Kimi 还有个很有趣的设计,大家如果平时喜欢用 AI 写代码的话肯定会非常有感觉。

众所周知,想让 AI 修改画面里的特定元素的话,其实是个非常麻烦的事情,你需要准确的描述你要改的元素在哪里,叫什么,长什么样,不然 AI 可能就会听不懂你在说什么,开始随地大小改,乱改一通。

而 Kimi 为了让大伙能更快的告诉 AI 应该改哪里,直接在它的预览界面增加了一个截图的编辑系统,你可以直接把画面上想改的东西给圈圈画画,然后把这些截图丢给 Kimi 让它来把 Bug 给修改。

虽然 Kimi 最终能修复这些 Bug,靠的还是自己的图像识别多模态能力,但是对用户来说,用平台自带的截图功能显然会更加方便,修改起来也会更加得心应手。

在要求了 Kimi 修复了小人运动方向、延长了游戏的跑道之后,这个游戏就变成了这样:

游戏的核心玩法基本被复刻得明明白白,和最开始的视频相比,差距最大的地方可能就是体现在了美术素材的区别上了。

看着屏幕上那个被我不到半小时就 " 调教 " 得服服帖帖的小人儿,世超心里确实有种莫名的成就感。

说实话,从丢过去一段几十秒的视频,到最终拿到一个逻辑通顺、手感丝滑的小游戏,整个过程我几乎没怎么动脑子去想代码逻辑,更多的是在扮演一个 " 监工 " 的角色:发现问题,截图圈出来,然后看着 AI 把活儿干完。

总而言之,从信息收集到代码编程,从 Office 办公到多 Agent 协同。这次 Kimi 的 K2.5 在解决复杂任务上的表现相当硬核。更关键的是,它的使用门槛极低,不仅仅是说上手容易,更是指它的价格便宜。

而且还开源,这种极致的性价比,意味着我们可以毫无顾忌地把繁琐的工作丢给 AI,而不用担心 AI 干活干到一半,就直接把我们的钱包给刷爆了。

这让世超想起杨德昌导演在电影《一一》里那句经典的台词:

" 电影发明以后,人类的生命,比起以前延长了至少三倍。"

有了电影,我们就能在短短两个小时里,体验到别人完整的一生。

而现在,大模型也在做类似的事情。

它不是字面意义上地让你活得更久,而是让你在有限的时间里,拥有了三倍、甚至十倍的产出能力

我们可以把复杂的 Office 操作、枯燥的数据收集、掉头发的代码撰写,都丢给大模型,让自己直接享受结果,或者去思考更有创造力的事情。

以前因为怕麻烦、怕花钱而不敢尝试的想法,现在都可以丢给这一群 AI Agent 去试一试。

人类以后只需要学会怎么动嘴就行,剩下的 " 脏活累活 ",就放心交给这个 AI 项目组吧。

撰文: 早起

编辑: 江江 && 面线

美编: 素描

图片、资料来源:Kimi 官网

相关标签

最新评论

没有更多评论了