关于ZAKER 合作
量子位 14小时前

Claude 新模型 4.6 来了!更多饭碗没了:华尔街财务、编译器、安全白帽、PPT …通通失守

一睁眼,Anthropic 上新模型,让 Claude Opus 4.6 来给您拜!年!了!

消息一出,金融数据服务商 FactSet 最惨盘中暴跌 10%,S&P Global、穆迪、纳斯达克公司纷纷下跌,各大指数全线跳水。

这已经是 Anthropic 你小子本周第二次搅动市场了

几天前,它旗下一款自动化法律工作的插件悄悄上线,直接引爆了万亿美元级别的软件股暴跌。

投资者的恐慌聚焦在一个问题:谁能保证几年内不被 AI 颠覆?不能就抛售。

想不到今天的 Anthropic 更狠。

今天以前,大家对 Claude 的印象,就是编程能力断档性的强。

Claude Opus 4.6 冷笑一声,梆梆一拳打破这个印象:俺在更多的领域都很强!

至少就官方说法而言,财务分析、研究,以及 Office 三件套,Claude Opus 4.6 都可以玩儿得贼溜。

官网直接写到:

在 GDPval-AA(一项评估金融、法律和其他领域经济价值知识工作任务的性能指标)上,Opus 4.6 比行业下一最佳模型 OpenAI GPT-5.2 高出 144 个 Elo 哟~

(这意味着 Claude Opus 4.6 在大约 70% 的情况下在这个评估中获得比 GPT-5.2 更高的分数,50% 的情况下意味着分数相当)

当然,编程这块它依旧独领风骚。

在 Agent 编程评估 Terminal-Bench 2.0 中取得了最高分,并在 " 人类最后考试 " 中领先所有其他前沿模型。

好消息是加量不加价,Opus 4.6 的定价保持原有标准:每百万 token 输入 / 输出,价格是 5 美元 /25 美元

(为了方便阅读,以下简称新模型为 Opus 4.6)

带着 1M 上下文和自适应思考杀回巅峰

Opus 4.6 最直观的进步就是有了 1M Token 超大上下文,这是 Claude 首次在 Opus 级别模型中引入这个长度的上下文窗口。

这极大改善了 Opus 4.6 在处理长文本时会出现的 " 上下文衰减 " 情况。

在 MRCR v2 8-needle 1M 基准测试——大海捞针——中,Opus 4.6 得分 76%,而 Claude Sonnet 4.5 只有 18.5%。

伴随而来的结果是搜索能力的提升。

在 BrowseComp 评测(评估在线检索难获取信息的能力)中,Opus 4.6 排名行业第一,深度多步骤代理式搜索表现最佳,能精准定位分散在长文档中的关键信息。

Opus 4.6 还引入了自适应思考(Adaptive Thinking)功能。

以前,使用 Claude 模型的开发者只能二选一,扩展思考模式要么开,要么关。

现在,Claude 可以自己判断什么时候需要深度推理。

(讲真,这一步比 ChatGPT 慢了哈,下次请搞快点上这种好功能)

配套的 effort 参数提供四档选择—— low、medium、high、max ——,默认 high,遇到模型过度思考的情况可以手动调低。

另一个实用功能是上下文压缩(Context Compaction)。

当对话接近上下文窗口上限时自动摘要并替换旧内容,让长对话和 Agent 任务更轻松。

编码、知识工作、搜索、推理等核心场景,杀爆了

官方博客显示,Opus 4.6 一出,几乎无模型能与其争锋。

在编码、知识工作、搜索、推理等核心场景,Opus 4.6 有显著突破

多项评测成绩超越前代及行业竞品,be like:

看完有了个大概印象,我们再一个一个掰开说。

首先是编程能力。

Opus 4.6 在 Terminal-Bench 2.0 中拿到了最高分。

从成绩背后的实际能力来看,Opus 4.6 能更周密地进行任务规划,可在大型代码库中稳定运行,代码审查与调试精度提升。

而且能自主发现自身错误。

另一点是 Opus 4.6 支持多语言编码,能处理跨语言软件工程问题。

它能像高级工程师一样完成数百万行代码库迁移,且用时实打实少一半那种。

写到这里的时候,我不禁在想:

工程师们看到这个消息到底是高兴得头发都不掉了,还是会掉更快呢……(陷入沉思 .jpg)

其次,Opus 4.6 也在积极入侵传统办公领地。

这次它对 Office 三件套狠狠出手了。

能直接在 Excel 里摄入凌乱的非结构化数据,自行推断合理的表格结构,一次操作中可处理多个复杂步骤;

能铭记你公司的 PPT 模板,包括字体和布局风格也记住,确保生成的 PPT 没啥 AI 味,让老板以为是你熬夜框框一顿做的。

在 Cowork 环境下,Opus 4.6 可以代表用户自主多任务运行,一边跑财务分析,一边把研究成果整理成文档

感觉,Anthropic 有点想把 Claude 从聊天框里拉到更多空间里的意思?

第三,我们来说说它在推理能力上的进步

先上个总结:

Opus 4.6 在跨领域推理上,更强了。

在多学科复杂推理测试 " 人类最后的考试 " 中,Opus 领先所有前沿模型。

在法律领域,Opus 4.6 在 40% 为满分的 BigLaw Bench 上,得分 90.2%。

在金融、法律等经济价值导向任务评测 GDPval-AA 中,Opus 4.6 以 144 Elo 超越 " 行业竞品 "OpenAI GPT-5.2。

无论是复杂的法律、金融专业知识还是刁钻的学术研究,它的推理理解深度都达到了目前 frontier models 的顶峰。

难得的是,这种智力的飞跃并没有以牺牲安全性为代价

在 Anthropic 最看重的自动化行为审计中,Opus 4.6 的对齐水平极高,同时,欺骗、奉承等负面行为极低

Opus 4.6 甚至解决了目前 AI 圈普遍头疼的 " 过度拒绝 " 问题——

在面对正常的、无害的请求时,它比以往任何模型都更少地表现出那种死板的拒绝。

目前,Opus 4,6 已经在官网、API 和所有主流云平台上线。

加量不加价,Opus 4.6 的定价保持原有标准:每百万 token 输入 / 输出,价格是 5 美元 /25 美元

不过在 10M token 上下文测试版本中,提示词超过 200k token 的话会有额外付费。

划!重!点!

想要使用 Opus 4.6 的话,需要在调用 API 的时候明确制定模型标识 "Claude-opus-4-6"。

更多饭碗没了 16 个 Agent 两周写完 C 编译器,运行毁灭战士

Opus 4.6 带来的一项核心能力升级是 Agent Teams,即多个 Claude 实例并行协作,无需人类实时监督。

Anthropic 安全团队的研究员 Nicholas Carlini 拿它做了个压力测试:让 16 个 Agent 从零开始用 Rust 写一个能编译 Linux 内核的 C 编译器。

两周时间,近 2000 次 Claude Code 会话,烧掉 20 亿输入 Token 和 1.4 亿输出 Token,总成本不到 2 万美元。

最终产出是一个 10 万行的编译器,能在 x86、ARM 和 RISC-V 三个架构上编译 Linux 6.9,还能跑 Doom。

这套并行机制让每个 Agent 跑在独立的 Docker 容器里,共享一个 git 仓库。

为了防止多个 Agent 撞车,都屁颠屁颠跑去解决同一个问题,系统用了一个简单的锁机制。

Agent 通过往 current_tasks/ 目录写文件来 " 认领 " 任务,git 的同步机制自动处理冲突。Agent 之间没有专门的通信协议,也没有编排 Agent,每个 Claude 自己决定下一步干什么。

Carlini 在博客里写道:

" 当 Agent 开始编译 Linux 内核时曾一度卡住,因为这是一个巨型单体任务,16 个 Agent 全撞在同一个 bug 上互相覆盖。"

解法是引入 GCC 作为 "oracle" 对照组,让每个 Agent 只编译内核的随机子集,通过二分法定位问题文件,这样并行能力才真正发挥出来。

500 个零日漏洞,开箱即挖

Opus 4.6 在网络安全领域的表现让 Anthropic 自己都有点意外。

在发布前的测试中,Anthropic 的前沿红队把 Opus 4.6 扔进一个沙箱环境,给它 Python 和常规漏洞分析工具(fuzzer、debugger 那些),没有任何专门指令或领域知识,让它自己去找开源代码里的漏洞。

结果它挖出了超过 500 个此前未知的高危零日漏洞

每一个都经过了 Anthropic 团队成员或外部安全研究员的验证的哦。

具体案例包括:

在 GhostScript(一个处理 PDF 和 PostScript 文件的常用工具)中发现了一个可导致崩溃的漏洞,而且是在传统 fuzzing 和人工分析都没找到问题之后,Claude 自己翻了项目的 git 提交历史才挖出来的;在 OpenSC(处理智能卡数据的工具)和 CGIF(处理 GIF 文件的工具)中发现了缓冲区溢出漏洞;在 CGIF 那个案例里,Claude 甚至主动写了 PoC(概念验证代码)来证明漏洞真实存在。

Anthropic 前沿红队负责人 Logan Graham 说,如果这成为未来开源软件安全审计的主要方式之一,他一点也不惊讶。

不过 Anthropic 也承认,这种能力可能被滥用。

为此,团队加了六套新的网络安全探测机制,未来可能会上线实时拦截系统来阻止恶意流量。

One More Thing

官网显示,Anhtropic 现在已经是 " 用 Claude 构建 Claude"。

自家工程师每天都在用 Claude Code 编写代码,每个新模型首先都在自己的工作环境中进行测试。

参考链接:

[ 1 ] https://www.anthropic.com/news/Claude-opus-4-6

[ 2 ] https://www.anthropic.com/engineering/building-c-compiler

[ 3 ] https://x.com/i/trending/2019496145987232014

[ 4 ] https://www.axios.com/2026/02/05/anthropic-Claude-opus-46-software-hunting

[ 5 ] https://techcrunch.com/2026/02/05/anthropic-releases-opus-4-6-with-new-agent-teams/

[ 6 ] https://www.reddit.com/r/singularity/comments/1qwrrn7/Claude_opus_46_is_out/

欢迎 AI 产品从业者共建

「AI 产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库,旨在成为 AI 行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。

一键关注 点亮星标

科技前沿进展每日见

相关标签