文 | 强调 Next
今天凌晨,Anthropic 发布了 Claude Opus 4.8。距上一版 Opus4.7 只过了 41 天。
按照惯例,发布会上少不了一串亮眼的跑分:SWE-bench Pro 从 64.3% 升到 69.2%,数学测试 USAMO 拿了 96.7%,综合推理评分比 GPT-5.5 领先 121 个 Elo 分……但 Anthropic 选择把发布的重心放在一个听起来很 " 软 " 的词上:诚实。

过去两年,AI 公司在发布模型时的叙事框架几乎千篇一律:更快、更强、更便宜。Anthropic 这次的核心论点是:Opus4.8 比上一代 " 更不会骗你 "。
具体来说,他们的评测显示,新模型在发现自己写的代码存在缺陷时,主动报告的概率是 Opus4.7 的四倍。用 Anthropic 自己的话说,旧模型有时会 " 跳到结论上 ",信心满满地汇报进展,哪怕证据并不支撑。测试过新模型的早期用户反映,Opus4.8 更愿意在不确定的地方说 " 我不确定 ",而不是给出一个听起来合理、但实际站不住脚的答案。

2 · AI 开始接管 " 整个任务 "
配合新模型同步上线的,还有两个功能,分量都不轻。
其中一个叫 Dynamic Workflows,目前以研究预览版的形式放在 ClaudeCode 里。它的逻辑是:把一个大任务交给模型,它会先做规划,然后同时拉起数百个并行的子智能体分头干活,最后汇总验证结果。Anthropic 给出的示例场景是对数十万行代码进行整库迁移。从提需求到代码合并,全程由 AI 主导推进。

另一个是努力程度控制,面向所有 claude.ai 用户开放。用户可以自己调节模型每次回复投入多少 " 思考量 ",需要深度分析就调高,日常快速交互就调低,相应地也会消耗不同额度的使用配额。把成本与质量的权衡交给用户自己决定,这个思路倒是挺务实的。
3 · 价格没变
价格方面没有变化:输入 $5、输出 $25,每百万 token,和 Opus4.7 一样。变的是 FastMode,同样的旗舰模型质量,2.5 倍速,价格比前代便宜了三倍,降到输入 $10、输出 $50。对于需要大批量调用的企业来说,这个变化比模型本身的能力提升更直接地影响部署决策。
4 · 更大的伏笔
发布稿里还藏着一条值得关注的信息:Mythos。
这是他们更高级别的模型,目前只在少数企业中小范围测试。Anthropic 说,Mythos 级别的模型将在 " 未来数周内 " 向所有客户开放,正在做的是完善安全防护机制。上个月 Mythos 的有限预览因为暴露出一些网络安全方面的隐患而被紧急踩了刹车,这次措辞谨慎,没有给出具体时间表。
与此同时,Anthropic 今天还公布了 650 亿美元的 H 轮融资,估值来到 9650 亿美元,在账面上超过了 OpenAI 的 8520 亿美元。两家公司谁先上市、谁先过万亿,正在成为硅谷最受关注的悬念之一。
回到模型本身。Opus 4.8 是一次定位清晰的迭代。没有革命性的代际更新,只是在现有基础上把可靠性、诚实性和长任务执行能力推进了一步。Anthropic 自己也承认这是 " 适度但实质性的改进 "。
留给我们的问题是,当 AI 开始学会说 " 我不确定 ",人与 AI 之间的协作方式,需要怎么跟着调整?