最强编程模型让位了。
但没有换人,依然是 Claude。
新发布的 Claude Sonnet 4.5,在 SWE-bench 上的成绩比 Sonnet 4 提升了 1.8 个百分点,而且提质不加价。
在这 30 个小时里,Claude Sonnet 4.5 写了 11000 多行代码,构建出了类似 Slack 的聊天应用。
此前 Opus 4 曾因为连续工作 7 小时就备受关注,现在这个数字直接变成了 4 倍多。
总之,Claude Sonnet 4.5 在多项领域都实现了对自己的超越,成为该领域内的最佳模型。
先有昨晚的 DeepSeek-V3.2,紧接着又是 Claude Sonnet 4.5,赶在节前密集上新的模型,看来是真的不让人放假了。(手动狗头)
多项指标超越自我
来看 Anthropic 晒出的 Claude Sonnet 4.5 成绩单。
除了已经介绍过的 Swe-bench 和 OSWorld 之外,Claude Sonnet 4.5 也在终端编程(Terminal-Bench)、工具使用(τ 2-bench)等测试集中取得长足进步。
在高中水平的数学方面,AIME 2025 试题中,如果借助 Python,Claude Sonnet 4.5 可以做到 100% 的准确率,不借助任何工具也能达到 87%。
在这四个领域当中,Claude Sonnet 4.5 相比 Sonnet 4,对战 baseline 模型的胜率均有大幅度提升,且在 16K 上下文、开启思考的情况下,均超过 60%。
通过安全训练,Anthropic 减少了 Claude Sonnet 4.5 的谄媚、欺骗等不良行为;在智能体和计算机场景下,Claude Sonnet 4.5 在防御即时注入攻击方面也取得了显著进展。
同时,针对正常内容的误报也有所降低,正常请求拒绝率从 Sonnet 4 时的 0.15% 下降到了 0.02%。
GitHub 首席产品官 Mario Rodriguez 表示,Claude Sonnet 4.5 让 GitHub Copilot 能更好地处理复杂的跨代码库任务。
智能体 SDK 上线
除了发布模型更新,Anthropic 还官宣了 Claude Agent SDK,可以帮助开发者基于 Claude Code 构建智能体。
Claude Agent SDK 前身为 Claude Code SDK,最初的目的是提升 Anthropic 内部的开发效率。
更名之后,这个 SDK 从一个专注于代码任务的工具集,升级为一个构建通用、自主智能体的全面框架,支持构建个人助理、深度研究等各种类型的智能体。
工作流程上,Agent SDK 将构建智能体的过程系统化为 " 收集上下文→采取行动→验证工作→重复 " 的循环。
此外 Anthropic 还发布了一个名为 Imagine with Claude 的新功能。
Max 订阅用户将可以在接下来的五天时间里进行尝鲜。
如果你对新的模型和功能感兴趣,就赶快试用起来,也欢迎在评论区交流使用体验 ~
参考链接:
[ 1 ] https://www.anthropic.com/news/claude-sonnet-4-5
[ 2 ] https://www.theverge.com/ai-artificial-intelligence/787524/anthropic-releases-claude-sonnet-4-5-in-latest-bid-for-ai-agents-and-coding-supremacy
[ 3 ] https://www.anthropic.com/engineering/building-agents-with-the-claude-agent-sdk
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情
企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与
一键关注 点亮星标
科技前沿进展每日见