
作者 | 王涵
编辑 | 心缘
智东西 4 月 24 日报道,今天凌晨,OpenAI 智能体编程模型 GPT 5.5 正式发布!
GPT 5.5 能更快地理解用户的目标,擅长编写和调试代码、在线研究、分析数据、创建文档和电子表格以及在多个工具之间协同操作。

https://x.com/OpenAI/status/2047376561205325845)
OpenAI 团队将其称之为 " 这是我们迄今为止最智能、最直观易用的模型,也是迈向在计算机上完成工作的全新方式的重要一步。"
Sam Altman 本人评价该模型:" 根据我的经验,它‘知道该做什么’。"

在编程能力上,GPT 5.5 全面超越了 Gemini 3.1 Pro;在专业任务、计算机使用与视觉、工具使用以及抽象推理方面,其在大部分测试集的成绩都高于 Claude Opus 4.7 和 Gemini 3.1 Pro。
但在学术和工具使用能力上,GPT 5.5 与 Claude Opus 4.7 和 Gemini 3.1 Pro 并未拉出明显差距。

模型一经发布,就有很多参与内部测试的网友分享了他们的使用感受。
开源项目 Claude Engineer 的创建者、AI 设计助手 MagicPath 的 CEO Pietro Schirano 分享称,GPT-5.5 只用了大约 20 分钟就帮他自动对比了其项目两个版本的代码差异,然后基于正式版本创建了新分支,还将其他分支的所有改动完美合并了进去。

此外,Pietro Schirano 让 GPT-5.5 通过 USB 连接为他的 Flipper Zero 创建了应用程序,并成功地将它们推送到了设备上。



波兰波兹南密茨凯维奇大学数学系助理教授 Bartosz Naskr cki 使用 Codex 中的 GPT 5.5,仅凭一条提示词,在 11 分钟内就构建了一个代数几何应用,该应用能够可视化二次曲面的交线,并将结果曲线转换为 Weierstrass 模型。
随后,他扩展了该应用,加入了更稳定的奇点可视化功能以及可在后续工作中复用的精确系数。


GPT-5.5 Pro 定价为每 100 万输入 token 30 美元,每 100 万输出 token 180 美元。


在 ChatGPT 中,GPT 5.5 Thinking 面向 Plus、Pro、Business 和 Enterprise 用户开放。对于 API 开发者,gpt-5.5 即将在 Responses API 和 Chat Completions API 中提供。
GPT-5.5 发布之际,正值 Claude Code 最近性能变差屡遭投诉。或许是感受到来自 GPT-5.5 的压力,Anthropic 今日发长文宣布已修复降智问题,并自今日起重置所有订阅用户的使用限制。

OpenAI 团队称,GPT 5.5 是 OpenAI 迄今为止最强大的 Agentic Coding 模型。
Artificial Analysis 智能指数是由第三方机构运行的 10 项评估的加权平均值,具体包括:AA-LCR、AA-Omniscience、CritPt、GDPval-AA、GPQA Diamond、Humanity ’ s Last Exam、IFBench、SciCode、Terminal-Bench Hard、τ²-Bench Telecom。
Artificial Analysis 官方发文称,OpenAI 的 GPT-5.5(xhigh)在 Terminal-Bench Hard、GDPval-AA 以及 APEX-Agents-AA 中均处于领先地位。该模型仅在 CritPt 和 AA-LCR 上落后于其他 OpenAI 模型,并在另外三项评估中仅次于 Gemini 3.1 Pro Preview,综合表现排名第一。


在所有这三项评估中,GPT 5.5 在比 GPT 5.4 使用更少 token 的同时,得分均有提升。

早期测试表明,GPT 5.5 能更好地胜任实际工程工作所依赖的为,例如在大型系统中保持上下文理解、针对模糊的故障进行推理、通过工具验证假设,以及对相关的整个代码库进行变更同步。
例如,GPT 5.5 可以使用 NASA/JPL Horizons 提供的猎户座飞船、月球和太阳的矢量数据渲染出运行轨迹,并且还可以进行显示缩放:
太空任务 App
GPT 5.5 还能够制作出一个可以动态显示地震频次、地点等信息的追踪网站:
地震追踪
配合 Codex,用户可以使用 GPT 5.5 制作出可玩的 3D 游戏:
3D 地牢竞技场游戏
二、客服测试成绩达 98%,能自主浏览界面操作工具
由于 GPT 5.5 能更好地理解用户意图,它可以更自然地完成知识型工作的整个闭环:查找信息、理解重点、使用工具、检查输出结果,并将原始素材转化为有用的成果。
在 ChatGPT 中,GPT 5.5 Thinking(思维模式)在编码、研究、信息综合与分析以及文档密集型任务等专业性工作中表现出色。
基准测试方面,在规范知识型工作测试 GDPva 上,GPT 5.5 获得了 84.9% 的分数。在真实操作计算机测试 OSWorld-Verified 上,该模型达到了 78.7%。在客服测试 Tau2-bench Telecom 上,GPT 5.5 在未经提示调优的情况下达到了 98.0% 的分数。



实际应用中,在 Codex 中,GPT 5.5 在生成文档、电子表格和幻灯片演示方面优于 GPT 5.4。alpha 测试人员表示,在运营研究、电子表格建模以及将杂乱无章的业务信息转化为计划等工作上,它的表现超过了以往的模型。
当结合 Codex 的计算机使用技能时,GPT 5.5 模型似乎真的在与用户一起使用计算机:它能查看屏幕上的内容、点击、打字、浏览界面,并在不同工具之间协同操作。
例如,OpenAI 财务团队使用 Codex 审阅了 24771 份 K-1 税务表格,总计 71637 页,所采用的工作流程帮助团队节省了两周的时间。
财务模型
用户团队则可以利用 GPT 5.5 设计并调试新客户引导流程:
测试新用户引导流程
三、发现拉姆齐数新证明,在遗传学生物学表现亮眼
GPT 5.5 在科学和技术研究工作流上的表现也有所进步。在科研中,研究人员需要探索一个想法、收集证据、检验假设、解读结果,并决定下一步的尝试方向。
用户可以用 GPT 5.5 Thing 反复审阅稿件草稿、对技术论证进行压力测试、提出分析建议,并协同处理代码、笔记以及 PDF 上下文。GPT 5.5 更擅长帮助研究人员从提出问题到进行实验,再到最终产出成果。
GeneBench 是一个专注于遗传学和定量生物学中多阶段科学数据分析的新评估基准,GPT 5.5 相较于 GPT 5.4 表现出明显的提升。

同样,在围绕真实世界生物信息学与数据分析设计的基准测试 BixBench 上,GPT 5.5 在已公布分数的模型中领先。

他们在全套安全和准备框架下对该模型进行了评估,与内部及外部红队成员合作,针对高级网络安全和生物学能力增加了针对性测试,并在发布前收集了近 200 个值得信赖的早期合作伙伴在实际用例中的反馈。
结语:OpenAI 向自主执行更进一步
GPT-5.5 的发布,标志着 OpenAI 正将大模型的能力内核转向执行。
在追求更大参数与更强算力的行业热潮中,GPT-5.5 选择了一条更务实的路径:用更少的 token 完成更多的事。无论是编码、知识工作还是科学研究,它都展示了效率与智能并非不可兼得。
其性价比、多工具协同能力以及安全防护机制,为开发者和企业用户提供了更强大的生产力工具。