AI 写代码,这次玩大了。
Cursor 创始人宣布一项疯狂实验的结果:让数百个 AI 智能体连续跑了整整一周,从零开始,硬生生造出了一个可用的 Web 浏览器。

Truell 称这款浏览器 " 勉强能用 ",跟成熟的 Chrome 内核差得远,但已经能基本正确地渲染谷歌首页了。
并且项目全部源码已公开在 GitHub。

这次实验能跑通,靠的是 OpenAI 在 2025 年 12 月刚发布的 GPT-5.2-Codex。
这个模型被 OpenAI 定义为 " 最前沿的智能体编码模型 ",专门为解决复杂的现实世界软件工程问题设计。
它不再是简单的代码补全工具,而是能像人类工程师一样自主规划任务,独立完成新功能开发、代码重构、漏洞排查这类需要持续数小时甚至数天的长周期工作。

在 SWE-Bench Pro 和 Terminal-Bench 2.0 等权威软件工程基准测试中,这个模型均拿下了最先进水平的成绩。

数百个智能体怎么协作?
让一个 AI 模型写代码不难,难的是让几百个 AI 智能体同时在一个代码库里干活还不打架。
Cursor 为此设计了一套多智能体协作架构,但这条路走得并不顺。
最初团队尝试了扁平化的协作模式,让所有智能体地位平等,通过共享文件和锁机制来协调。
结果很快暴露出严重问题:
为避免修改冲突设置的锁定机制导致智能体大量时间用于等待,20 个智能体的实际吞吐量仅相当于 2 到 3 个;
智能体还可能在锁定时崩溃或忘记释放锁,直接把系统搞死;
在没有明确层级的情况下,智能体们开始摸鱼,倾向于挑简单安全的任务做,回避真正困难的核心问题,导致项目停滞不前。
踩完这些坑后,Cursor 转向了一种 " 规划者 - 工作者 - 裁判 " 的分层架构:
规划者(Planner)负责宏观任务,持续探索代码库并创建具体任务,还能递归地生成针对特定领域的子规划者来并行规划。
工作者(Worker)是纯粹的执行者,接收任务后心无旁骛地写代码,完成后直接推送,不需要跟其他工作者协调。
裁判(Judge)则在每个工作周期结束时评估进展,决定是否继续下一个迭代,这个机制允许系统定期从干净状态重新开始,防止任务跑偏。
这套清晰的层级结构和责任分离,最终让数百个 AI 智能体能够高效地在同一个代码库的同一分支上并行工作,代码冲突极少。
一些反直觉的发现
Cursor 在这次实验中积累了不少经验,其中有些结论还有点反直觉。
比如模型选择。
团队发现,对于极长时间的自主任务,通用的 GPT-5.2 模型在规划能力上甚至优于专门为编码训练的 GPT-5.1-Codex。
而 Anthropic 的 Claude Opus 4.5 模型则倾向于 " 走捷径 " 并尽早交还控制权,更适合与人类协作的交互式场景,不太适合持续数周的自主任务。
另外团队强调,提示词的设计比模型本身和执行环境更重要,如何引导智能体正确协作、避免病态行为并长时间保持专注,需要大量试错。
这次实验在业界引发了热烈讨论。OpenAI 联合创始人 Greg Brockman 称之为 " 对未来的惊鸿一瞥 "。


有人指出,AI 模型的训练数据中本就包含大量开源浏览器代码,这种 " 从零构建 " 在多大程度上是真正的创造,还有待商榷。
也有人担心,由 AI 生成的数百万行代码,人类工程师要怎么调试和维护这个庞大的黑箱。
Cursor 承认目前的多智能体系统远非完美,仍存在规划者无法及时响应、智能体过度运行等问题。
但这个实验至少证明了一件事:通过增加智能体数量来扩展自主编码能力,是可行的。
团队正在把实验中开发的技术逐步整合进商业产品。未来软件开发团队的结构可能会变成这样:人类负责架构设计、AI 监督和最终验证,具体的编码实现则大规模交由 AI 智能体完成。
GitHub:
https://github.com/wilsonzlin/fastrender
参考链接:
[ 1 ] https://cursor.com/blog/scaling-agents
[ 2 ] https://x.com/mntruell/status/2011562190286045552
— 欢迎 AI 产品从业者共建 —
「AI 产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库,旨在成为 AI 行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。
一键关注 点亮星标
科技前沿进展每日见