文 | AI 唱反调
6 月份,AI 编程圈被两句话点燃。
Anthropic 的 Boris Cherny 说:我不再给 Claude 写提示词了,我的工作就是写循环。OpenAI 的 Peter Steinberger 说:别再给编程 Agent 写提示词了,去设计循环。

先说清楚,Loop Engineering 到底是干啥的!
剥掉新词,循环(loop)就是一段预先写好的 "包工头" 逻辑:它自己找出有什么活要干,把一块丢给 AI,检查交回来的东西,不合格就带着报错再丢一次,直到通过、或者撞到预设的次数和预算上限才停。
关键区别在于,到底是用户还是 AI 在中间一步步操作。
过去的用法是这样:跟 Claude 说 " 给待办事项写一套增删改查接口 ",它写完,用户一看少了字段校验,再说 " 补上校验和测试 ",它再改,来回拉锯,每一步都得用户盯着、出声。这就是提示词工程:一轮一轮地跟模型对话。

用 Boris Cherny 的话说,干活的最小单位变了:从敲一行代码,到写一句提示词,再到写一个循环。用户不再是那个写提示词的人,而是那个写 " 写提示词的东西 " 的人。
说穿了,循环就是一台带模糊判断的状态机。难的从来不是循环本身,是那些防止它在死循环里烧掉两百美元的边界条件。这里记住,后面要考。
但内核其实是旧东西。2023 年 AutoGPT 就试过让 AI 自己跑循环,没验证、没边界,撒开了跑,最后失败了。2025 年 Context Engineering 刚被 Karpathy 背书,2026 年初 Harness Engineering 还热乎着。一个内核是旧概念、只是补上了控制的东西,凭什么 2026 年 6 月突然就需要一个新名字?
技术确实在进化,但采用新的方法是否有必要,答案得在商业里面找。
模型涨不动了
一个全行业的普遍感受是:大模型能力的边际惊喜,正在快速减少。
从 GPT-4 到 Claude 4 再到 Gemini 2,开发者端的体感差距在持续收窄。一年前换模型,输出质量可能跳一档;现在换模型,差别更像这个语法更顺一点,那个注释更规范一点。基准测试上的数字还在涨,但生产环境里的 " 啊哈时刻 " 在变少。
MIT 2026 年初的一份研究指出,随着算力投入增加,顶尖模型与轻量模型之间的性能差距正在收敛,每多投入一美元带来的提升在持续下降。Steve Eisman 在 2025 年底的播客中直言,继续扩大 LLM 规模可能是一条死胡同。Ilya Sutskever 在 NeurIPS 2024 上也表态:预训练的时代即将结束。
但模型在聊天场景里的边际惊喜收窄,不代表它在所有场景里都停住了。Agent 栈的可用窗口,恰好在这个节点打开。工具调用从一碰就碎到标准化的 MCP 协议,长上下文从记不住到百万 token 稳定输出,自我验证从自说自话到写查分离的工程机制。模型本身没有指数级飞跃,但围绕模型的工程基础设施,补齐了。
于是出现了一个微妙的甜蜜点:模型够用到能让循环不崩溃,但又没好到让循环变得多余。模型要是一步到位,根本不需要在外面套一层付费的循环。Loop Engineering 被推销的时机,正好卡在这里。
对 Anthropic 和 OpenAI 这种估值建立在永远增长上的公司来说,模型本身拉不开差距,是最危险的信号。模型是基础设施,利润却不在砖块本身,而在收费站。它们必须让模型流经的管道产生溢价。Loop Engineering,就是这条新管道。
厂商开始卖 " 范式 "
2022 到 2024 年,厂商卖的是模型能力。谁的模型更聪明,谁赢。
2025 年开始,规则变了。模型差距缩小,厂商转而卖 " 使用模型的方式 "。Context Engineering 说,模型已经足够聪明,瓶颈在使用方式,得把上下文装对。Harness Engineering 说,模型已经足够聪明,瓶颈在使用方式,得给 Agent 搭好脚手架。Loop Engineering 说,模型已经足够聪明,瓶颈在使用方式,得把自己升级成循环设计者。
每一轮都在传递同一个潜台词:模型已经足够聪明,瓶颈在使用方式。
这句话未必是假的——如果瓶颈真的从模型转移到了用法,那它就是事实。问题在于厂商怎么用它:它把模型增长放缓的压力,悄悄转译成了用户能力不够的焦虑。用户买的东西,从算力变成了资格——不被淘汰的资格。
纵观近期 AI 发展的时间线,会发现这似乎是一种 " 议程设置 "。2025 年中,Context Engineering 经 Tobi L ü tke 等人推广、由 Karpathy 在社交层背书后,迅速成为 agent 栈的显学。2026 年初,Mitchell Hashimoto 提出 Harness Engineering。2026 年 6 月,Addy Osmani 命名 Loop Engineering,引爆全网。
从 Context 到 Loop,大约九个月。每一轮都有行业顶流背书,每一轮都宣称上一轮过时。
技术迭代的自然节奏从来缓慢。TCP/IP 从提出到普及用了二十年,React 从发布到统治前端用了五年。真正的工程范式迁移,是缓慢的、自下而上的、充满争议的。而 Prompt 到 Context 到 Harness 到 Loop 这条线,是快速的、自上而下的、齐声合唱的。
这里得把话说准。同样这组现象:多家厂商同步、概念整齐递进,既能解释成精心编排,也能解释成另一种可能:几家实验室在同一套工具下,撞到了同一面工程墙,自然收敛到同一个答案。趋同不等于合谋。所以更稳妥、也更站得住的说法是:厂商未必编排了这个节奏,但他们一定在用力利用这个节奏。无论是哪一种,这种节奏看起来都更像品牌的刷新周期,而不是传统工程范式的自然迁移。
更值得注意的是概念和产品发布时间的重合。Anthropic 在 5 月 28 日给 Claude Code 上线了 Dynamic Workflows(动态工作流),让模型自己写编排脚本、在后台调度成百上千个子代理。OpenAI 的 Codex 则在更早的春天就加上了持续目标(goals)能力。产品先备好,再等一个概念来引爆市场,Loop Engineering 的命名,本质上是一次注意力的重新拍卖。有趣的是,赢家总是手握 token 最多的人。
当用户在 X 上争论 Loop Engineering 是不是新瓶装旧酒的时候,已经完成了厂商想要的那件事:把注意力从 " 模型有没有进步 ",转移到了 " 新范式值不值得追 "。
锁定与烧钱
Loop Engineering 表面提高效率,实际上是在两头烧钱:一头是迁移成本,一头是运行账单。
先说锁定。当把提示词写进 SKILL.md、把验收规则写进 CLAUDE.md、把循环逻辑嵌进 Claude Code 的 loop 和动态工作流,用户用的就不只是一个工具,而是在建一个专有架构。循环越复杂、沉淀的规则越多,对这套体系的依赖就越深。
Anthropic 和 OpenAI 的循环组件几乎撞脸:Automations、Worktrees、Skills、Connectors、Sub-agents、Memory,六大件高度一致。两家不约而同,本质上是双向锁定:模型层拉不开差距,就在工程层制造选择成本。选了 Claude Code 的循环体系,迁到 Codex 就得重搭一遍;反之亦然。
一些早期团队的非正式反馈是,把 Loop 引进组织后想再迁出来,耗费的时间和资源远超预期,拖得越久越糟。厂商的算盘不在一次性卖 API,而在让用户每年都为维持现有体系支付工程成本。
比技术债更隐蔽的,是概念债和理解债。
每九个月换一次概念,意味着每九个月团队就要重构一次工作流。Context Engineering 刚搭好的上下文体系,Harness 来了得改;Harness 刚把脚手架搭稳,Loop 来了得再改。厂商不会为这种重构买单,但团队的生产力在概念切换的间隙里被持续消耗。
与之相伴的是代码层面的理解债。循环批量产出的代码没人读,团队对系统的理解深度持续下降。一边追着新概念改工作流,一边对着黑盒代码抓瞎。Addy Osmani 自己也提了这个警告:循环产出越快,用户读懂的比例就越低,最舒适的选择是认知投降:接受循环返回的任何结果。
这不是在庸人自扰。2025 年 Vibe Coding 的余温还在。METR 2025 年 7 月那项随机对照实验发现,有经验的开发者用 AI 工具处理复杂任务,效率反而下降 19%(需要说明:METR 在 2026 年初对该研究的方法提出了保留,结论被修正为 " 尚不能确定 AI 是否提升生产力 " ——这条数据要用,得带着这个保留用)。更稳的是安全侧:Veracode 2025 年的报告显示,45% 的 AI 生成代码通不过安全测试。Lovable 平台也出过应用批量暴露用户数据的事故。
循环把这些问题放大了。有三个坑特别隐蔽:偷懒,50 项安全任务做了 20 项就喊搞定;自夸,给自己的成果打高分;漂移,跑了 47 轮之后,最初的 " 别做 X" 约束悄悄消失。测试通过了,架构却偏了;功能跑通了,逻辑却埋了雷。没有人盯着中间产物,谁也不知道出错的地方是哪里。调试一个跑了 47 轮的状态机,比修好一条 prompt 难 10 倍。
更讽刺的是,概念债的主要受害者是中层开发者。顶层设计者如 Boris,有近乎无限的 token 和完整基建,概念迭代对他只是多一个管理维度;底层写提示词的人反正还没入场;卡在中间的人,刚学会上一轮,下一轮又来了,永远在追赶,永远追不上。
然后是账单,这才是这套范式最直接的代价。
2026 年 5 月,据 The Verge(Tom Warren)报道,微软要求其 Experiences + Devices 部门的数千名工程师,在 6 月 30 日财年末之前从 Claude Code 迁回 GitHub Copilot CLI。微软官方给的理由是工具链统一、想要一个能和 GitHub 一起塑形的产品;但这个动作卡在财年末的时点,被普遍解读为真实动因是成本。要知道,微软自己通过 Foundry 协议向 Anthropic 投了最多 50 亿美元,连它都按不住重度使用的账单。
Uber 的案例更直接。它给约 5000 名工程师铺开 Claude Code 后,四个月就烧穿了 2026 年的全年 AI 预算。采用率从 2 月的 32% 飙到 3 月的 84%,人均月支出 150 到 250 美元,重度用户 500 到 2000 美元,CTO 本人一次两小时的会话就花掉了 1200 美元。管理层把这描述为一个 " 脑袋要炸 " 的时刻。
这些数字在别的文章里是 " 成本陷阱、使用需谨慎 ",在商业视角里,它们是概念迭代的直接成果。
Loop Engineering 的本质,是让用户从 " 按需调用模型 " 变成 " 持续运行模型 "。loop 每分钟跑一次,动态工作流在云端 24 小时跑,几千个 Agent 夜间并行。Anthropic 自己在动态工作流的说明里就直接警告:这个功能会比普通会话消耗多得多的 token,建议先拿小任务试。表面看是技术进步,骨子里是消费模式升级:从 " 买电 " 变成 " 全天候耗电 "。
这就是经济学里的杰文斯悖论:技术效率提升,反而带来总消耗的增长。厂商的收入公式很简单:用户停留时长乘以调用频次乘以 token 单价。Loop Engineering 同时拉升了前两个变量,让 AI 从 " 叫它才动 " 变成 " 它自己一直在动 "。动得越多,账单越厚。
Peter Steinberger 面对 "20 美元套餐根本不可能 " 的质疑,回答:没错,可难道时间就不值钱吗?翻译过来就是:别算 token 账了,算时间账。但时间账是模糊的、感性的、无法审计的;token 账是清晰的、刚性的、每月自动扣款的。厂商希望用户用模糊的时间账,去覆盖清晰的 token 账。
结语
2023 年的 AutoGPT,最早火出圈、让 AI 自己定目标、自己循环干活的开源项目——失败了,因为它没有控制。2026 年的 Loop Engineering 能落地,因为它有控制、有验证、有边界。这是技术层面的真相。
商业层面的真相是另一条:2023 年模型还在快速进步,厂商不需要新概念也能卖;2026 年模型在 chat 场景里的边际惊喜收窄了,厂商需要新概念来拉动新增长,同时把用户锁进需要持续付费的管道层。
这两个真相并不矛盾,它们同时成立。Loop Engineering 既是真实的工程进化,也是真实的商业策略。用户每多写一个循环、每多跑一轮任务,都在帮某家公司的商业模式添一个数字。技术本身是中立的,但技术的命名权、定价权、注意力分配权,从来都不是中立的。
看懂管道的生意,用好管道的价值,同时永远守住自己的判断力。同一个循环,用在自己真懂的活上是杠杆,用来逃避理解就是加速下滑——做看得懂循环的工程师,而不是只会按下运行键的操作员。别让自己的职业生涯,绑定在别人的增长曲线上。
说到底,工程师才是那个判官。但判官也得交电费。判官得知道,电费为什么交、交给了谁、值不值得。