关于ZAKER 合作

Anthropic 发布 Claude4 系列模型 可连续进行近 7 小时代码生成

【太平洋科技快讯】5 月 23 日,Anthropic 正式推出了其新一代语言模型—— Claude Opus 4 和 Claude Sonnet 4。这两款模型均具备混合推理能力, 提供两种模式:" 快速模式 " ( Fast Mode ) 用于低延迟的简短对话任务," 扩展思考模式 " ( Extended Thinking Mode ) 用于需要深度推理和多轮代理行为的复杂任务。

这种双模式策略使用户能够根据任务复杂度灵活分配计算资源, 大大提高了工作效率。此外,这两款模型可以通过 Anthropic 的 Claude API、Amazon Bedrock 和 Google Cloud Vertex AI 等多个云平台访问,支持从自主代理到代码分析等多种企业应用场景。

Claude 4 系列或许意味着 AI 正在从辅助工具转变为更接近人类协作者的 "AI 同事 "。尽管 Anthropic 强调 AI 的目标是自动化而非取代人类工作, 但 Claude 4 系列强大的能力可能引发对部分职业 ( 如软件开发 ) 自动化程度的担忧。然而,相关研究表明,AI 的普及将推动人机协作模式的发展,同时要求人类提升自身技能以适应新的工作环境。

Claude Opus 4:

Claude Opus 4 被 Anthropic 定位为其迄今为止最强大的模型, 专为处理复杂的推理流程和软件开发场景而设计。在 SWE-bench 基准测试中,Claude Opus 4 准确率达到 72.5%, 该测试用于评估模型解决真实 GitHub 问题的能力。在 TerminalBench 测试中,其准确率为 43.2%, 该测试用于验证模型在多步骤终端代码生成任务中的表现。

值得一提的是,Claude Opus 4 在软件环境中展现出了强大的自主行为能力。 得益于改进的内存管理、更广泛的上下文保留以及更强大的内部规划机制,该模型能够连续进行近 7 小时的代码生成和任务执行,刷新了 AI 世界纪录。这一成绩远超其前代 Claude 3 Opus,后者在同一任务中的持续工作时间不到 1 小时。

Claude Sonnet 4:

与 Claude Opus 4 专注于复杂任务不同,Claude Sonnet 4 更注重效率和轻量化。 它在处理速度和延迟方面表现更佳,成为 Claude.ai 免费用户的默认模型,并通过 API 提供服务。这使得 Claude Sonnet 4 适用于轻量开发工具、用户助手和分析流程等场景。

相关标签