关于ZAKER Skills 合作
智东西 20小时前

凌晨,GPT-5.5 收复失地!Anthropic 紧急出手

智东西

作者 | 王涵

编辑 | 心缘

智东西 4 月 24 日报道,今天凌晨,OpenAI 智能体编程模型 GPT 5.5 正式发布!

GPT 5.5 能更快地理解用户的目标,擅长编写和调试代码、在线研究、分析数据、创建文档和电子表格以及在多个工具之间协同操作。

OpenAI 官宣推文(指路:

https://x.com/OpenAI/status/2047376561205325845)

OpenAI 团队将其称之为 " 这是我们迄今为止最智能、最直观易用的模型,也是迈向在计算机上完成工作的全新方式的重要一步。"

Sam Altman 本人评价该模型:" 根据我的经验,它‘知道该做什么’。"

在性能上,GPT 5.5 的提升在智能体编码、计算机使用、知识型工作以及早期科学研究等领域尤为显著——这些领域的进展依赖于跨上下文的推理和持续的自主行动。

在编程能力上,GPT 5.5 全面超越了 Gemini 3.1 Pro;在专业任务、计算机使用与视觉、工具使用以及抽象推理方面,其在大部分测试集的成绩都高于 Claude Opus 4.7 和 Gemini 3.1 Pro。

但在学术和工具使用能力上,GPT 5.5 与 Claude Opus 4.7 和 Gemini 3.1 Pro 并未拉出明显差距。

在速度上,GPT 5.5 在实际服务中保持了与 GPT 5.4 相当的每 token 延迟,同时实现了更高的智能水平。完成相同的 Codex 任务时,GPT 5.5 使用的 token 数显著更少,因此效率更高、能力也更强。

模型一经发布,就有很多参与内部测试的网友分享了他们的使用感受。

开源项目 Claude Engineer 的创建者、AI 设计助手 MagicPath 的 CEO Pietro Schirano 分享称,GPT-5.5 只用了大约 20 分钟就帮他自动对比了其项目两个版本的代码差异,然后基于正式版本创建了新分支,还将其他分支的所有改动完美合并了进去。

他还用 GPT-5.5 一次性生成了一个可玩的 3D 射击游戏,游戏整体操作手感流畅,而且每一个图形都是由 Three.js 从零生成的。

此外,Pietro Schirano 让 GPT-5.5 通过 USB 连接为他的 Flipper Zero 创建了应用程序,并成功地将它们推送到了设备上。

Pietro Schirano 感慨道:"GPT-5.5 是我用过的最强大的工具。我第一次感觉自己不再受限于模型的功能,而只受限于我的想象力。训练工作流程、不可能的优化、通过 USB 进行硬件实验。Vibe 硬件时代开启。"

AI 工程师 Peter Gostev 深度体验了 GPT-5.5,并放出了他用 GPT-5.5 工作的几个例子。他分享称,用户可以给 GPT-5.5 设定好步骤提示词,GPT-5.5 就会按照步骤逐项完成,亲测至少可以稳定自主运行 7 个小时。

Peter Gostev 要求 GPT-5.5 创建一个带有地标和季节变化的伦敦玩具铁路,该模型一次性就出色地完成了任务。他对比发现,相比于 GPT-5.4,GPT-5.5 生成的作品在构思上要宏大得多、逻辑更连贯,而且错误也更少。

波兰波兹南密茨凯维奇大学数学系助理教授 Bartosz Naskr cki 使用 Codex 中的 GPT 5.5,仅凭一条提示词,在 11 分钟内就构建了一个代数几何应用,该应用能够可视化二次曲面的交线,并将结果曲线转换为 Weierstrass 模型。

随后,他扩展了该应用,加入了更稳定的奇点可视化功能以及可在后续工作中复用的精确系数。

知名 AI 测评网红 Matthew Berman 称其最近两周都在测试 GPT-5.5,他感受到 OpenAI 改进了模型的个性,他认为这是为了抢占更多个人智能体(如 OpenClaw)市场。" 它的回答更简洁、更像真人、不那么正式。它确实有了自己的个性。"

价格上,GPT-5.5 定价为每 100 万输入 token 5 美元,每 100 万输出 token 30 美元,上下文窗口为 100 万 token。与 GPT-5.4 相比,其价格整体贵了一倍。

GPT-5.5 Pro 定价为每 100 万输入 token 30 美元,每 100 万输出 token 180 美元。

与 Anthropic 的 Claude 模型的价格相比,GPT-5.5 的价格与 Opus 4.7 几乎持平,在输出定价上每 100 万 token 比 Opus 4.7 贵 5 美元。

今天,GPT 5.5 正在向 ChatGPT 和 Codex 中的 Plus、Pro、Business 和 Enterprise 用户逐步推出,GPT 5.5 Pro 则向 ChatGPT 中的 Pro、Business 和 Enterprise 用户推出。

在 ChatGPT 中,GPT 5.5 Thinking 面向 Plus、Pro、Business 和 Enterprise 用户开放。对于 API 开发者,gpt-5.5 即将在 Responses API 和 Chat Completions API 中提供。

GPT-5.5 发布之际,正值 Claude Code 最近性能变差屡遭投诉。或许是感受到来自 GPT-5.5 的压力,Anthropic 今日发长文宣布已修复降智问题,并自今日起重置所有订阅用户的使用限制。

一、登顶编码 Agent 榜首,成本仅为竞品一半

OpenAI 团队称,GPT 5.5 是 OpenAI 迄今为止最强大的 Agentic Coding 模型。

Artificial Analysis 智能指数是由第三方机构运行的 10 项评估的加权平均值,具体包括:AA-LCR、AA-Omniscience、CritPt、GDPval-AA、GPQA Diamond、Humanity ’ s Last Exam、IFBench、SciCode、Terminal-Bench Hard、τ²-Bench Telecom。

Artificial Analysis 官方发文称,OpenAI 的 GPT-5.5(xhigh)在 Terminal-Bench Hard、GDPval-AA 以及 APEX-Agents-AA 中均处于领先地位。该模型仅在 CritPt 和 AA-LCR 上落后于其他 OpenAI 模型,并在另外三项评估中仅次于 Gemini 3.1 Pro Preview,综合表现排名第一。

根据 Artificial Analysis 的智能指数,GPT 5.5 在成绩最高的同时,其成本仅为同类前沿编码模型的一半。

在复杂执行测试 Terminal-Bench 2.0 上,GPT 5.5 的成绩为 82.7%。在 真实世界问题解决测试 SWE-Bench Pro 上,它取得了 58.6% 的成绩,单次端到端解决的任务数量超过以往模型。在内部长周期任务测试 Expert-SWE 上,GPT 5.5 同样优于 GPT 5.4。

在所有这三项评估中,GPT 5.5 在比 GPT 5.4 使用更少 token 的同时,得分均有提升。

该模型在编码方面的优势在 Codex 中表现得尤为突出。在 Codex 中,GPT 5.5 可以承担从实现、重构到调试、测试和验证等一系列工程工作。

早期测试表明,GPT 5.5 能更好地胜任实际工程工作所依赖的为,例如在大型系统中保持上下文理解、针对模糊的故障进行推理、通过工具验证假设,以及对相关的整个代码库进行变更同步。

例如,GPT 5.5 可以使用 NASA/JPL Horizons 提供的猎户座飞船、月球和太阳的矢量数据渲染出运行轨迹,并且还可以进行显示缩放:

太空任务 App

GPT 5.5 还能够制作出一个可以动态显示地震频次、地点等信息的追踪网站:

地震追踪

配合 Codex,用户可以使用 GPT 5.5 制作出可玩的 3D 游戏:

3D 地牢竞技场游戏

二、客服测试成绩达 98%,能自主浏览界面操作工具

由于 GPT 5.5 能更好地理解用户意图,它可以更自然地完成知识型工作的整个闭环:查找信息、理解重点、使用工具、检查输出结果,并将原始素材转化为有用的成果。

在 ChatGPT 中,GPT 5.5 Thinking(思维模式)在编码、研究、信息综合与分析以及文档密集型任务等专业性工作中表现出色。

基准测试方面,在规范知识型工作测试 GDPva 上,GPT 5.5 获得了 84.9% 的分数。在真实操作计算机测试 OSWorld-Verified 上,该模型达到了 78.7%。在客服测试 Tau2-bench Telecom 上,GPT 5.5 在未经提示调优的情况下达到了 98.0% 的分数。

GPT 5.5 在其他知识型工作基准测试中也表现也很亮眼:在 FinanceAgent 上为 60.0%,在内部投资银行建模任务上为 88.5%,在 OfficeQA Pro 上为 54.1%。

实际应用中,在 Codex 中,GPT 5.5 在生成文档、电子表格和幻灯片演示方面优于 GPT 5.4。alpha 测试人员表示,在运营研究、电子表格建模以及将杂乱无章的业务信息转化为计划等工作上,它的表现超过了以往的模型。

当结合 Codex 的计算机使用技能时,GPT 5.5 模型似乎真的在与用户一起使用计算机:它能查看屏幕上的内容、点击、打字、浏览界面,并在不同工具之间协同操作。

例如,OpenAI 财务团队使用 Codex 审阅了 24771 份 K-1 税务表格,总计 71637 页,所采用的工作流程帮助团队节省了两周的时间。

财务模型

用户团队则可以利用 GPT 5.5 设计并调试新客户引导流程:

测试新用户引导流程

三、发现拉姆齐数新证明,在遗传学生物学表现亮眼

GPT 5.5 在科学和技术研究工作流上的表现也有所进步。在科研中,研究人员需要探索一个想法、收集证据、检验假设、解读结果,并决定下一步的尝试方向。

用户可以用 GPT 5.5 Thing 反复审阅稿件草稿、对技术论证进行压力测试、提出分析建议,并协同处理代码、笔记以及 PDF 上下文。GPT 5.5 更擅长帮助研究人员从提出问题到进行实验,再到最终产出成果。

GeneBench 是一个专注于遗传学和定量生物学中多阶段科学数据分析的新评估基准,GPT 5.5 相较于 GPT 5.4 表现出明显的提升。

这些问题要求模型在极少的监督指导下,对可能存在歧义或错误的数据进行推理,应对诸如隐藏混杂因素或质控失败等现实障碍,并正确实现和解读现代统计方法。考虑到这些任务通常相当于科学专家需要耗时数天的项目,该模型的表现令人瞩目。

同样,在围绕真实世界生物信息学与数据分析设计的基准测试 BixBench 上,GPT 5.5 在已公布分数的模型中领先。

在安全方面,OpenAI 团队介绍称,其为 GPT 5.5 配备了迄今为止最强大的安全防护措施。

他们在全套安全和准备框架下对该模型进行了评估,与内部及外部红队成员合作,针对高级网络安全和生物学能力增加了针对性测试,并在发布前收集了近 200 个值得信赖的早期合作伙伴在实际用例中的反馈。

结语:OpenAI 向自主执行更进一步

GPT-5.5 的发布,标志着 OpenAI 正将大模型的能力内核转向执行。

在追求更大参数与更强算力的行业热潮中,GPT-5.5 选择了一条更务实的路径:用更少的 token 完成更多的事。无论是编码、知识工作还是科学研究,它都展示了效率与智能并非不可兼得。

其性价比、多工具协同能力以及安全防护机制,为开发者和企业用户提供了更强大的生产力工具。

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容