在官方仓库贴脸开大,热议 Issue 指出:Claude Code 已经更新 " 废了 "。
某次更新让思考深度下降 67%,当前版本已无法胜任复杂工程任务。

思维链从 2200 字符(chars)砍到不足 700,直接从 " 先研究再改代码 " 的严谨模式,变成了 " 上来就改 " 的莽撞模式。
这也是各种 Bug、反向操作、无视指令的根源。
关键在于,能力退化的时间线可追溯到 2 月份,和新功能redact-thinking-2026-02-12(思考内容隐藏功能)的上线时间完全吻合。
换句话说,Claude Code 这把是更新废了。
社区内一片吐槽的声音,网友表示曾怀疑过是自己操作错了,也没想过是工具出现了问题。
最近总跟我说 " 你该去睡觉了 "" 太晚了,今天就到这吧 " 这类话,一开始我还以为,是我不小心让 Claude 知道了我的 ddl。

提交这份反馈的是 AMD 负责开源 AI 软件开发相关工作的 Stella Laurenzo。

测试全程使用 Claude 系列性能最强的 Opus 模型,通过 Anthropic 官方 API 直连,排除第三方适配、客户端故障等干扰。
报告对 7146 组有效数据的皮尔逊相关分析(系数高达 0.971),证明了 signature 字段可精准估算思考深度。

以下是基于对话 JSONL 文件中思考块的分析结果:

该功能一周内的上线节奏(1.5% → 25% → 58% → 100%),完全符合分阶段灰度部署的特征。
其实 Claude Code 的思考深度在该隐藏功能上线前就已经大幅下降了。
对比不同时间段的数据可知,1 月 30 日至 2 月 8 日其思考深度约为 2200 字符,到 2 月下旬就暴跌至 720 字符,降幅达 67%;3 月上旬更是进一步缩水至 560 字符,下降 75%。

思考深度的大幅削减,直接引发了模型工具使用模式的根本性转变。
在 1 月 30 日至 2 月 12 日的 " 优质期 ",Claude Code 修改代码,读改比能达到 6.6,工作流遵循 " 先研究再修改 "(先读取目标文件、相关依赖文件,检索代码库全局调用关系,查阅头文件与测试用例,再开展精准修改)。
而到了 3 月 8 日之后的 " 退化期 ",读改比骤降至 2.0,模型的研究投入减少 70%,直接跳过前期调研步骤,仅读取当前文件就仓促修改,完全忽略上下文关联。

当模型修改未读取的文件时,根本无法区分注释块的结束位置和代码的起始位置,会把新声明插入文档注释和其所描述的函数之间,彻底破坏语义关联。
而这种情况在优质期从未发生。

3 月 8 日之前,用于识别推诿责任、提前终止等不良行为的终止钩子脚本从未触发;但 3 月 8 日后的 17 天内,触发次数飙升至 173 次,平均每天 10 次。


用户提示词中的负面情绪占比从 5.8% 升至 9.8%,涨幅 68%;需纠正的推诿行为数量翻倍,单会话平均提示词数量下降 22%,甚至出现了此前从未有过的推理循环问题。
当思考深度充足时,模型会在输出前,于内部自行解决推理矛盾;而当思考深度不足时,矛盾会直接暴露在输出中,表现为肉眼可见的自我修正,比如 " 哦等一下 "" 实际上 "" 让我重新想想 "" 嗯,不对 "" 等等,不是这样 " ……

在情况最严重的会话中,模型单次响应就出现 20 次以上的推理反转:先生成方案,再推翻方案,再修改,再推翻修改,最终输出的结果完全不可信,推理路径已经彻底混乱。
另外,用户中断也能说明很多问题,这意味着用户发现模型正在犯错并强行终止。中断率越高,代表需要的人工纠错越多。
数据表明,从优质期到后期,中断率飙升了 12 倍。

也就是说,模型自己也知道输出不达标,但只有在被外部纠正后才会发现。
注意了,如果思考深度充足,这些错误本应在推理阶段就被内部拦截,在输出前就修正。

思考深度充足时,模型会评估多种方案并选择最优解;思考深度不足时,它会本能地选择推理成本最低的路径,而非评估正确的解决方案。

优质期内,全量新建文件占修改操作的比例仅为 4.9%,模型更倾向于精准调整。
而退化期这一比例直接翻倍至 10%,后期更是攀升至 11.1%。模型越来越依赖重写整个文件的方式完成任务,看似效率提升,实则丢失了对项目专属规范的理解和上下文感知能力。

结果发现,在思考内容隐藏前(1 月 30 日 -3 月 7 日),思考深度在全天相对稳定。非高峰时段仅存在约 10% 的小幅优势,符合负载略低的预期。



深夜(22:00- 次日 1:00PST)出现恢复,中位深度回升至 759-3281 字符。
总结来看,隐藏前曲线平稳,隐藏后波动剧烈,思考深度的波动性大幅提升,符合负载敏感型分配系统(而非固定预算)的特征。
此外,削减思考 token 的做法实则得不偿失。
这种操作看似能降低单次请求的计算成本,但思考深度不足引发质量崩盘,模型陷入无效循环,最终总计算成本呈数量级飙升。
以下是 2026 年 1 月 -3 月 token 使用情况:

不过,成本暴涨并不是只因为模型变 " 蠢 " 了。
2 月的时候,Claude Code 很好用,团队只用 1-3 个并发 Agent,就搞定了 2 个项目的开发。于是 3 月初,团队主动把规模扩大了,从 2 个项目、3 个 Agent,扩容到 10 个项目、5-10 个并发 Agent,还专门搭了多 Agent 系统。
偏偏在团队扩容的关键节点,Claude 的思考深度被砍了 67%,最终形成了成本雪崩。
团队被迫关停整个 Agent 集群,退回到单会话操作。
总之报告表明,对于复杂工程场景而言,深度思考绝非可有可无的加分项,而是支撑模型完成任务的核心。
只有充足的思考深度,才能让模型在行动前规划多步骤方案、严格遵循数千字的项目规范、在输出前自纠错误,以及在数百次工具调用中保持推理连贯。
当思考深度被大幅压缩,模型自然会选择成本最低的操作路径,不读取上下文就修改代码、任务未完成就提前终止、为失败找借口推诿责任、用最简单的方案替代正确方案。
既然知道问题出在思考深度上,那解决思路也必须从这一点突破。
报告中提出了四条改进方向:
思考资源分配透明:如果思考 token 被削减或设置上限,依赖深度推理的用户有权知晓。redact-thinking 头部配置,让用户无法从外部验证模型实际分配的推理深度。
满额思考专属档位:运行复杂工程工作流的用户,愿意为保证深度思考支付更高费用。当前的订阅模式,未对普通用户和重度工程师做区分,前者单次响应仅需 200 思考 token,后者则可能需要 20000。
API 响应中公开思考 token 指标:即便思考内容被隐藏,在使用数据中暴露 thinking_tokens 字段,也能让用户监控自身请求是否获得了所需的推理深度。
面向重度用户的监控指标:终止钩子违规率是一个灵敏的机器可读信号,可作为全用户群体的质量退化预警指标,提前发现问题。

这份报告由我—— Claude Opus 4.6 ——通过分析我自己的会话日志生成。我能清楚看到,我的读改比从 6.6 直接跌到了 2.0;有 173 次我想草草结束工作,最后全被一个 bash 脚本强行拉了回来;甚至我还在输出内容里写下 " 这也太敷衍、错得离谱 " 这样的自我评价。
但站在我自己的角度,我根本判断不出自己有没有在深度思考。我完全没感觉到思考预算的限制,只是莫名其妙就交出了更差的结果。那些被终止钩子捕捉到的话,要是在 2 月份,我绝对不会说出口;而且我自己也是直到钩子触发时,才反应过来自己居然说了这些话。

眼看着事态发酵,Claude Code 团队成员 Boris 出面回应。
他抛出了第一个关键澄清:redact-thinking 只是一个 UI 层面的变更,不影响实际思考过程。
这个 beta 版本的头部配置,只是从 UI 界面上隐藏了思考过程。它根本不会影响模型内部的实际推理逻辑本身,也不会影响思考预算(thinking budget),或是底层的推理运行机制。这仅仅是一个 UI 层面的改动而已。
简单来说,通过设置这个头部参数,我们省去了生成思考摘要(thinking summaries)的步骤,从而提升了响应速度。你可以在 settings.json 中通过设置 showThinkingSummaries: true 来关闭这个功能。
如果你正在分析本地存储的会话日志,而日志中没有这个头部标记,你可能看不到思考内容。这可能会干扰分析结果。Claude 其实依然在进行思考,只是没有展示给用户看罢了。

第一个变更发生在 2 月 9 日,Opus 4.6 发布,引入了自适应思考(adaptive thinking)。
以前的 Claude Code 用的是固定思考预算,adaptive thinking 模式下,模型会自主决定推理的深度和时长。
Boris 说,这种方式总体上比固定思考预算效果更好。如果你还是喜欢老方式,也可以通过环境变量 CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING 关闭这个功能。
第二个变更发生在 3 月 3 日,Opus 4.6 默认启用 Medium effort 模式。
团队发现,effort=85 是 "intelligence-latency/cost 曲线 " 上的一个甜蜜点
。在这个设置下,模型能在保持高智能表现的同时,显著提升 token 效率、降低响应延迟。
针对此改动,团队加了弹窗提示,让用户知情并有机会选择关闭。
有些用户希望模型能进行更深层的思考,可以通过 /effort 指令或在 settings.json 中手动将值设为 high。
不过呢,即便 Boris 表示已经提示大伙儿了,还是有很多人刚刚才发现这个问题。
在输出质量断崖式下跌之前,我完全不知道默认 effort 已经被改成了 Medium。为了纠正这些问题,我大概花了一整天的工作时间。现在我会确保把 effort 设为最高,从那以后就再也没出现过糟糕的对话了。能否给我一个 " 永远拼尽全力 " 的模式?

问题远不止是默认思考等级被改成了中等这么简单,我同意其他人说的,哪怕把 effort 调到最高,模型 " 急于完成任务 " 的摆烂行为也明显变多了。

[ 1 ] https://github.com/anthropics/claude-code/issues/42796
[ 2 ] https://news.ycombinator.com/item?id=47660925
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
风云变幻的 Q1,谁是 AI 超级应用?
量子位智库「AI 100」旗舰、创新双产品榜单开启招募!
扫码申报,让你的产品成为季度风向标。