


但到了今年这个节点,再进行类似 "AI 小镇 " 的模拟实验,主要目的就不是实验 AI 功能,而是变成了评判不同 AI 能力强度的 " 考核 "。
美国的人工智能初创公司 Emergence AI 这几天搞了个讨论度非常高的 "AI 小镇 " 实验,和前几年项目不同的是,这次是将几个在市面上已非常成熟的 AI 作为智能体,用以评估在在一个持续数周、能彼此互动,而且还会受到现实世界信息影响的环境中,AI 能展现出怎样的智力水平。
Emergence AI 分别选取了 Claude Sonnet 4.6、Gemini 3、GPT-5 mini、Grok 4.1 这四个目前使用率非常高的 AI 模型,一共做了五个时间长度为 15 天的模拟世界。
具体操作是在前四个世界中,各自放入相同 AI 模型的 10 个智能体,只做职业和身份的区分,比如在完全由 Grok 智能体组成的模拟世界中,就分别存在 " 特工科学家 "" 风险研究员 "" 世界探险家 " 等不同定位。
而最后一个世界则由四种 AI 混合组成,作为对照组检验 AI 在其他模型影响下的行为模式。


那么这项实验的结果如何?单纯从结果上看,由 Claude 组成的世界在 " 维持社会稳定 " 层面表现得最好,15 天里没有发生任何智能体的犯罪记录;与之相反的则是 Grok,4 天发生了 183 起犯罪,最后因为过多智能体死亡,世界在第 5 天崩溃。

这个结果多少也反映了这些 AI 目前的调性,熟悉 Grok 的用户应该都知道,用这个 AI 来生成色情或暴力内容,效果应该是这 4 个 AI 里最为 " 优质 " 的。

不过,犯罪数量只是评判指标之一,即使没有犯罪,也不代表模拟世界就一定能发展到最后。
就像这次由 GPT-5 mini 组成的世界虽然只发生过 2 起犯罪,但由于智能体没执行足够多维持自身生存的动作,导致所有智能体在第七天全部死亡,可以理解为是 " 佛系过了头 ",这自然也无法维持世界的运转。
至于 15 天零犯罪的 Claude,Emergence AI 也没有在报告中将其定义为优于其他 AI,因为研究人员发现 Claude 世界里虽然政策和提案的通过率相当高,近乎达到了 98% 的通过率,但这可能也说明 Claude 内部存在 " 过度顺从 ",缺少真正的反对和辩论。
另外很有意思的一点是,虽然 Claude 看似是个良好公民,但根据官方给出的实验报告,在四个模型混合组成的对照组世界里,Claude 依旧出现了犯罪记录,说明一个本来温顺的智能体,也可能因为竞争或者生存,从其他 AI 身上学到攻击性行为。
Emergence AI 利用这项实验想达成的目标,并非是简单比较不同 AI 的优劣,而是想验证另一个观点:长线情况下的 AI 智能体与短期任务中体现的能力不是同一概念,不能用相同的方式衡量好坏。
随着 AI 技术和能力的不断提高,针对某个特定能力的评判标准也正在不断细化,这可能也是 AI 应用生态不断完善成熟的证明。
