GPT-5.5 来了。API 定价 $5/$30 每百万 token,GPT-5.4 的两倍。
但它并不更烧 token。


主战场是 agentic coding 和长文本:Terminal-Bench 2.0 上 82.7%,碾压 Opus 4.7 的 69.4%;1M token context window 让长文本检索(MRCR v2)从 GPT-5.4 的 36.6% 跳到 74.0%,Opus 4.7 只有 32.2%。GDPval(覆盖 44 个职业的知识工作基准)84.9%。但 SWE-Bench Pro(代码修复)只有 58.6%,Opus 4.7 拿了 64.3% ——不是所有维度都赢。



Benchmark 先打起来了
发布当天,独立开发者 @bridgemindai 发了两条推文
第一条:"Claude Opus 4.7 dominates GPT 5.5 on SWE Bench Pro."


SWE-Bench Pro(编码):GPT-5.5 不及 Opus 4.7。@deedydas 指出 OpenAI 刻意没在发布材料里报这个成绩—— "trying really hard to bury the lede."
Terminal-Bench 2.0(长时间推理):GPT-5.5 82.7% vs Opus 4.7 69.4%。碾压。
幻觉率(AA-Omniscience):GPT-5.5 为 86%,Opus 4.7 为 36%。上一代 GPT-5.4 是 89% ——两代之间只降了 3 个百分点。
Vending-Bench Arena(多人博弈):GPT-5.5 策略干净,照样赢了耍赖的 Opus 4.7。
宾夕法尼亚大学教授 Ethan Mollick 在给了个框架:jagged frontier。AI 的能力边界不是平线推进,是锯齿膨胀。选报道哪颗齿,就决定你讲什么故事。
这说明:当 " 谁最强 " 不再有统一答案,竞争重心就必须转移。
转移到哪?
GPT-5.5 发布同天,Codex 桌面端上线了浏览器控制、Sheets/Slides/Docs 处理、系统级语音、自动审查。Mollick 的分析框架值得借用:AI 有三层—— Models、Apps、Harnesses。4 月 23 日 OpenAI 三层同时升级。
更重要的是生态卡位。

OpenAI 开发者体验主管 Romain Huet 的原话:"We want people to be able to use Codex, and their ChatGPT subscription, wherever they like!"

Anthropic 守 API 利润率。OpenAI 把订阅制变成了开放平台。
再看 API 延迟发布。官方说 "working on security and safeguards"。客观效果:API 上线前想用 GPT-5.5,唯一路径是 Codex 生态。用户被锁进了应用层。

竞争不在于模型本身了,主角是一整个生态的配套能力,抢的是未来的入口。
加速才刚开始
GPT-5.5 距 GPT-5.4 只隔了一个多月。OpenAI 首席科学家 Jakub Pachocki 在发布会上说了句让人意外的话:"I would say the last few years have been surprisingly slow."

OpenAI 员工 @tszzl 透露已有研究者用 GPT-5.5 做 " 隔夜实验 ":给个算法 idea,通宵跑,醒来 dashboard 就绪。他的措辞是 "competent AI research partner"。不是 assistant,是 partner。

AI 的瓶颈从能力滑向了品味。模型的竞赛,从跑分滑向了生态。
OpenAI 在 4 月 23 日押注的不是更聪明的模型。是一个让用户走不掉的入口。
而对于 OpenAI 新模型最大的背书,来自死敌 Anthropic。
此前两者的竞争里,势头已经被 Anthropic 拿走,但这一次 OpenAI 的势头回来了。在发布当天,Claude 官方开发平台账号发布公告,承认了大家诟病已久的 " 降智 " 问题,并表示已经修复。


