关于ZAKER 合作
量子位 26分钟前

Claude Sonnet 4.5 被炸出来了,依旧最强编程,连续 30 小时自主运行写代码

最强编程模型让位了。

但没有换人,依然是 Claude。

新发布的 Claude Sonnet 4.5,在 SWE-bench 上的成绩比 Sonnet 4 提升了 1.8 个百分点,而且提质不加价。

而且有第三方表示,Claude Sonnet 4.5 能一口气工作 30 个小时,完全自主地编写代码。

在这 30 个小时里,Claude Sonnet 4.5 写了 11000 多行代码,构建出了类似 Slack 的聊天应用。

此前 Opus 4 曾因为连续工作 7 小时就备受关注,现在这个数字直接变成了 4 倍多。

计算机操作方面,Claude Sonnet 4.5 在 OSWorld 测试中取得了 60.2 分的 SOTA 成绩,比 Sonnet 4 提升了近一半。

总之,Claude Sonnet 4.5 在多项领域都实现了对自己的超越,成为该领域内的最佳模型。

先有昨晚的 DeepSeek-V3.2,紧接着又是 Claude Sonnet 4.5,赶在节前密集上新的模型,看来是真的不让人放假了。(手动狗头)

多项指标超越自我

来看 Anthropic 晒出的 Claude Sonnet 4.5 成绩单。

除了已经介绍过的 Swe-bench 和 OSWorld 之外,Claude Sonnet 4.5 也在终端编程(Terminal-Bench)、工具使用(τ 2-bench)等测试集中取得长足进步。

在高中水平的数学方面,AIME 2025 试题中,如果借助 Python,Claude Sonnet 4.5 可以做到 100% 的准确率,不借助任何工具也能达到 87%。

另外,Anthropic 还专门展示了 Claude Sonnet 4.5 在金融、医疗、法律以及 STEM 等专业领域的表现。

在这四个领域当中,Claude Sonnet 4.5 相比 Sonnet 4,对战 baseline 模型的胜率均有大幅度提升,且在 16K 上下文、开启思考的情况下,均超过 60%。

除了以上各种性能,Anthropic 还重点强调了 Claude Sonnet 4.5 的对齐和安全性指标。

通过安全训练,Anthropic 减少了 Claude Sonnet 4.5 的谄媚、欺骗等不良行为;在智能体和计算机场景下,Claude Sonnet 4.5 在防御即时注入攻击方面也取得了显著进展。

同时,针对正常内容的误报也有所降低,正常请求拒绝率从 Sonnet 4 时的 0.15% 下降到了 0.02%。

Claude Sonnet 4.5 的表现,获得了众多第三方的高度评价。

GitHub 首席产品官 Mario Rodriguez 表示,Claude Sonnet 4.5 让 GitHub Copilot 能更好地处理复杂的跨代码库任务。

Cognition 联创兼 CEO Scott Wu 也表示,Claude Sonnet 4.5 让 Devin 的规划能力和端到端评估成绩大幅度提升。

非编程类任务当中,也有金融机构的人工智能主管表示 Claude Sonnet 4.5 能够提供投资级的洞察。

最后说价格,Claude Sonnet 4.5 提质不加价,与 Sonnet 4 保持一致,为 3 美元每百万输入 token,15 美元每百万输出 token。

智能体 SDK 上线

除了发布模型更新,Anthropic 还官宣了 Claude Agent SDK,可以帮助开发者基于 Claude Code 构建智能体。

Claude Agent SDK 前身为 Claude Code SDK,最初的目的是提升 Anthropic 内部的开发效率。

更名之后,这个 SDK 从一个专注于代码任务的工具集,升级为一个构建通用、自主智能体的全面框架,支持构建个人助理、深度研究等各种类型的智能体。

工作流程上,Agent SDK 将构建智能体的过程系统化为 " 收集上下文→采取行动→验证工作→重复 " 的循环。

在 Agent SDK 中,Anthropic 解决了三个关键难题——智能体应该如何在长时间运行的任务中管理内存,如何处理平衡自主性与用户控制的权限系统,以及如何协调为实现共同目标而工作的子智能体。

此外 Anthropic 还发布了一个名为 Imagine with Claude 的新功能。

这个功能让 Claude 模型可以 " 实时生成软件 ",只要你给一个需求或构思,它就可以即时动手写代码、搭界面、安排流程等,把你的想法变成可运行的原型或界面,整个过程无需借助已有模板。

Max 订阅用户将可以在接下来的五天时间里进行尝鲜。

如果你对新的模型和功能感兴趣,就赶快试用起来,也欢迎在评论区交流使用体验 ~

参考链接:

[ 1 ] https://www.anthropic.com/news/claude-sonnet-4-5

[ 2 ] https://www.theverge.com/ai-artificial-intelligence/787524/anthropic-releases-claude-sonnet-4-5-in-latest-bid-for-ai-agents-and-coding-supremacy

[ 3 ] https://www.anthropic.com/engineering/building-agents-with-the-claude-agent-sdk

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情

企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与

一键关注 点亮星标

科技前沿进展每日见

最新评论

没有更多评论了