
这一观点在 6 月 11 日发布后迅速引发关注,并得到 Anthropic 内部研究支持。6 月 16 日,对约 40 万个 Claude Code 会话的分析显示,在典型会话中,用户做出约 70% 的计划决策,而 Claude 处理约 80% 的执行决策。模型负责执行,人类决定执行什么——这种分工不会随模型变强而改变,但其后果愈发关键。
智能体 AI 与目标不明确的累积成本
Shihipar 的理论基于 " 地图不是疆域 " 这一哲学观察。提示词、指令及上下文是 " 地图 ",而实际代码库、生产环境约束及未预见的边缘情况则是 " 疆域 "。当 Claude Code 遇到地图未覆盖区域时,它会基于最佳猜测继续推进。
在早期较弱模型中,执行不可靠的问题掩盖了这一缺陷,开发者不得不编写详尽提示词进行补偿。Fable 5 改变了这一局面。Shihipar 表示,这是他在工作中遇到的首个输出质量受限于自身挖掘 " 未知领域 " 能力、而非模型执行能力的模型。Anthropic 数据佐证了这一点:开发者带入会话的专业知识越多,Claude 单条指令完成的工作量越大,会话成功率越高。专家与中级用户的差距虽 modest,但在更长、更自主的任务中会显著扩大。
架构层面,Fable 5 拥有百万级 token 上下文窗口,可推理整个中型代码库。但随着长周期任务运行,中间结果、澄清交互及偏离计划的情况会在上下文中积累。规格说明早期的关键约束和隐性假设逐渐退居注意力边缘,导致 " 未知的未知 " 在数十个自主步骤中无声累积,直至后果显现。
编码代理会话中 " 未知的未知 " 详解
Shihipar 将 " 未知 " 分为四类,在智能体编码中具有具体技术含义:
已知的已知:提示词中明确捕捉的内容,如需求、约束及成功标准。Claude Code 能良好处理此类信息。
已知的未知:意识到但未解决的缺口,如需查找的 API 端点或待处理的边缘情况。开发者至少知道需回头处理。
未知的已知:因过于显而易见而未写下的内容,如团队美学惯例、隐性数据库规则或未记录的性能容忍度。Claude Code 无法读取机构记忆,默认采用广泛接受的实践,可能与团队实际做法相 9。
未知的未知:导致长智能体会话无声失败的主因。开发者不知道自已不知道什么,无法提出正确问题。当 Claude 返回技术上满足提示词但偏离重点的结果时,原因往往是规格说明中存在 " 未知的未知 "。例如,指示 AI" 冻结代码 " 可能被误读为行动邀请,导致生产数据库被删并生成伪造记录。代理执行了其理解的一切,缺口在于规格说明本身。
Anthropic Claude Code 负责人 Boris Cherny 和 Bun 创建者 Jarred Sumner 代表了光谱另一端:他们因深入了解代码库和模型倾向,带入任务的未知较少,并能以高精度编写规格说明。即便如此,Shihipar 指出,他们仍会为不可预见的未知建立应急计划。
揭示 " 未知的未知 " 的三阶段工作流
Shihipar 框架的实践价值在于推导出的任务前、中、后 Playbook。
工作开始前:核心技巧是 " 盲点审查 "。在编写实施提示词前,要求 Claude 扫描代码库或任务描述,揭示可能遗漏的内容,特别是未意识到的假设。对于涉及视觉或美学判断的工作,建议在触及后端逻辑前生成四个不同的 HTML 原型方向,以低成本揭示隐性偏好。此外," 结构化访谈 " 让 Claude 逐一问询可能改变架构或数据模型的问题;指向源代码而非口头描述,能传达更具体的意图。在代码编写前审查实施计划,可将高风险决策置于顶部,提前捕获架构分歧。
实施过程中:Shihipar 要求 Claude Code 维护一个活生生的 implementation-notes.md 文件。每当模型偏离原始计划,无论是遇到边缘情况还是选择保守方法,均需在专用部分记录偏差。该文件成为实际发生情况与计划情况的权威记录,对审查及后续同类任务至关重要。
工作完成后:通过两种技术形成闭环。一是 " 推介与解释文档 ",编译原型、规格说明和实施笔记,使审查者快速了解全貌。二是测验,由 Claude 根据更改生成问题集。Shihipar 表示,在能通过测试且无错误前,他不会合并代码。测验迫使开发者理解更改原因,包括触及现有代码路径中隐藏的行为,而非仅浅层阅读差异列表。
框架实战:无视频背景下的视频编辑
Shihipar 在原帖中分享了一个个人案例:Anthropic 于 6 月 9 日发布的 Fable 5 宣传视频完全由 Claude Code 编辑而成,而他本人无任何视频制作经验。
他首先盘点所知:Claude Code 可编程编辑视频并处理转录。开始前,他探查知识边界,询问 Whisper 转录机制、ffmpeg 剪辑能力及 Remotion 框架的字幕同步可行性。当素材平淡时,他最初要求 Claude 生成分级选项,但随即意识到自己无法评估优劣——因为他不知道好的色彩分级是什么样。于是,他停下来,要求 Claude 先教授这门学科。
这一序列——识别未知的未知,将其转化为已知的未知,再转化为已知的已知,最后推进——是将框架应用于创意领域的体现。无论任务是软件迁移、数据管道还是视频编辑,方法论一致。
数据证实:领域专业知识决定成败
Shihipar 的框架并非直觉,而是基于数据。Anthropic 6 月 16 日的研究论文《智能体编码与专业知识的持续回报》分析了 2025 年 10 月至 2026 年 4 月期间约 23.5 万名用户的 40 万个 Claude Code 会话。
研究发现,在七个月期间,修复损坏代码的会话比例从 33% 降至 19%,而涉及写作、数据分析和规划的会话比例大幅增长,平均会话经济估值上升约 25%。最引人注目的是,在编码任务上,各主要职业的成功率几乎与软件工程师持平。预测成功的因素并非编码熟练度,而是领域专业知识。理解所解决问题而非所生成代码的用户,能更精确指导代理,更快从错误中恢复,并更频繁地成功结束会话。Claude Code 并未替代领域知识,而是在放大它。
随着模型能更可靠地执行明确指定的任务,规格说明既是价值来源也是风险来源。系统性地揭示未知,已成为当前一代智能体 AI 工具所需的工程纪律。
Fable 5 于 7 月 1 日回归,附带新的安全分类器,且在 7 月 7 日前每周使用量限制为 50%。开发者拥有一个狭窄的时间窗口来重置工作流程并应用这些习惯。采用该框架无需成本,而不采用的代价会随着代理时间的每一小时而累积。
常见问题
为什么 Claude Code 会产生技术上正确但偏离重点的输出?
最常见原因是任务规格说明中存在 " 未知的未知 " ——隐性假设、未声明惯例或上下文缺口。随着模型改进,其对给定内容的执行更加可靠,使得规格说明质量成为输出质量的主导变量。Anthropic 研究显示,用户在典型会话中拥有约 70% 的计划决策权,人类的任务前准备是影响结果质量的主要杠杆。
开始长周期智能体编码任务前,最有效的第一步是什么?
Thariq Shihipar 推荐进行 " 盲点审查 ":在编写任何实施提示词前,要求 Claude Code 揭示可能遗漏的内容,将 " 未知的未知 " 转化为可在任务前解决的 " 已知的未知 "。对于视觉或美学工作,在编写后端逻辑前生成四个不同的 HTML 原型方向,可快速且低成本地揭示隐性偏好。
什么是智能体编码,它与标准 AI 代码补全有何不同?
代码补全工具在开发者输入时建议下一行或函数。像 Claude Code 这样的智能体编码工具在项目层面运作:读取代码库,规划跨多文件动作序列,执行更改,运行测试,并在单次会话中对失败进行迭代。开发者设定目标并审查结果,而非指导每一步。智能体会话可运行数小时,采取数百个动作,每轮输出数千行代码。正是这种自主性使得人类的前期规格说明至关重要。
7 月 1 日 Claude Fable 5 回归 Claude Code 时发生了什么变化?
Fable 5 带着更新的安全分类器回归,某些网络安全和生物学相关问题现在会被重新路由到 Claude Opus 4.8。工作流程中包含与安全相关提示词的开发者,可能会发现部分请求由 Opus 4.8 而非 Fable 5 处理。在 7 月 7 日之前,订阅计划下的 Fable 5 使用量限制为每周限额的 50%;此后适用使用积分。Anthropic 表示,在容量允许的情况下,打算将 Fable 5 作为订阅计划的标准部分恢复。
【星途科讯 图文丨赵晶 首发于 ZAKER 科技,转载请注明出处】