APP下载

关于ZAKER

Skills 合作

钛媒体 5小时前

Anthropic 发布 Claude Opus 4.8，重点是：“我不会骗你”

文 | 强调 Next

今天凌晨，Anthropic 发布了 Claude Opus 4.8。距上一版 Opus4.7 只过了 41 天。

按照惯例，发布会上少不了一串亮眼的跑分：SWE-bench Pro 从 64.3% 升到 69.2%，数学测试 USAMO 拿了 96.7%，综合推理评分比 GPT-5.5 领先 121 个 Elo 分……但 Anthropic 选择把发布的重心放在一个听起来很 " 软 " 的词上：诚实。

1 · 跑分之外，更重要的是不撒谎

过去两年，AI 公司在发布模型时的叙事框架几乎千篇一律：更快、更强、更便宜。Anthropic 这次的核心论点是：Opus4.8 比上一代 " 更不会骗你 "。

具体来说，他们的评测显示，新模型在发现自己写的代码存在缺陷时，主动报告的概率是 Opus4.7 的四倍。用 Anthropic 自己的话说，旧模型有时会 " 跳到结论上 "，信心满满地汇报进展，哪怕证据并不支撑。测试过新模型的早期用户反映，Opus4.8 更愿意在不确定的地方说 " 我不确定 "，而不是给出一个听起来合理、但实际站不住脚的答案。

这个改变看起来不起眼，实则是很多企业在真正落地 AI 时碰到的核心痛点。一个会写代码但不会发现自己代码有问题的模型，放进生产环境是危险的。一个做了分析但不标注自己在哪里打了折扣的模型，给高管看的报告就需要花大量时间人工复核。可信赖度，在某些场景下比能力更值钱。

2 · AI 开始接管 " 整个任务 "

配合新模型同步上线的，还有两个功能，分量都不轻。

其中一个叫 Dynamic Workflows，目前以研究预览版的形式放在 ClaudeCode 里。它的逻辑是：把一个大任务交给模型，它会先做规划，然后同时拉起数百个并行的子智能体分头干活，最后汇总验证结果。Anthropic 给出的示例场景是对数十万行代码进行整库迁移。从提需求到代码合并，全程由 AI 主导推进。

这意味着 AI 在工程场景里的角色，正在从 " 写代码的助手 " 向 " 执行工程任务的主体 " 迁移。对技术团队来说，遗留系统改造、跨模块重构这类历来耗时又高风险的活，第一次有了被认真 " 外包 " 给 AI 的可能性。

另一个是努力程度控制，面向所有 claude.ai 用户开放。用户可以自己调节模型每次回复投入多少 " 思考量 "，需要深度分析就调高，日常快速交互就调低，相应地也会消耗不同额度的使用配额。把成本与质量的权衡交给用户自己决定，这个思路倒是挺务实的。

3 · 价格没变

价格方面没有变化：输入 $5、输出 $25，每百万 token，和 Opus4.7 一样。变的是 FastMode，同样的旗舰模型质量，2.5 倍速，价格比前代便宜了三倍，降到输入 $10、输出 $50。对于需要大批量调用的企业来说，这个变化比模型本身的能力提升更直接地影响部署决策。

4 · 更大的伏笔

发布稿里还藏着一条值得关注的信息：Mythos。

这是他们更高级别的模型，目前只在少数企业中小范围测试。Anthropic 说，Mythos 级别的模型将在 " 未来数周内 " 向所有客户开放，正在做的是完善安全防护机制。上个月 Mythos 的有限预览因为暴露出一些网络安全方面的隐患而被紧急踩了刹车，这次措辞谨慎，没有给出具体时间表。

与此同时，Anthropic 今天还公布了 650 亿美元的 H 轮融资，估值来到 9650 亿美元，在账面上超过了 OpenAI 的 8520 亿美元。两家公司谁先上市、谁先过万亿，正在成为硅谷最受关注的悬念之一。

回到模型本身。Opus 4.8 是一次定位清晰的迭代。没有革命性的代际更新，只是在现有基础上把可靠性、诚实性和长任务执行能力推进了一步。Anthropic 自己也承认这是 " 适度但实质性的改进 "。

留给我们的问题是，当 AI 开始学会说 " 我不确定 "，人与 AI 之间的协作方式，需要怎么跟着调整？

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

企业资讯

查看更多内容

Blockchain News

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

Anthropic 发布 Claude Opus 4.8，重点是：“我不会骗你”

宙世代

一起剪

相关阅读

谷歌TPU或迎空前大单 私募巨头正为Anthropic筹划巨额芯片融资

豪掷1450亿美元，Meta能否在AI赛道实现反超

启境GT7搭载基于“韬定律”开发的华为乾崑赤兔平台

NVIDIA杀入笔记本CPU市场！戴尔XPS确认搭载N1X

被AI替代的人，和没被替代的人，差在哪？

华为徐直军谈韬定律：感谢美国 否则我们不可能干成

国产芯片巅峰！玄戒O3六月投产：台积电3nm工艺 小米史上最强

149999 元的索尼 RGB 电视是夯是拉？我们去索尼总部瞧了瞧

意想不到！新版Windows应用反不如旧版：微软承认WinUI 3撕裂问题

智能体工作站如何撑起企业Agent的“本地未来”？

章俊：2035，中国要做全球创新的“策源地”

独家对话它石智航陈同庆：一台会做线束的机器人公司，凭什么一年融资近7亿美金？

森海塞尔HD 480 PRO上手：封闭式监听耳机，终于做到了“久戴不累”

Anthropic完成650亿美元H轮融资 估值达9650亿美元

Oceanic Wind与明阳智能合作开发加拿大海上风电项目

最新评论

钛媒体

热门推荐

企业资讯

谷歌TPU或迎空前大单私募巨头正为Anthropic筹划巨额芯片融资

华为徐直军谈韬定律：感谢美国否则我们不可能干成

国产芯片巅峰！玄戒O3六月投产：台积电3nm工艺小米史上最强

Anthropic完成650亿美元H轮融资估值达9650亿美元