关于ZAKER Skills 合作
硅星人 25分钟前

GPT5.5:更贵不更烧,主角给到 Codex,逼 Claude 慌忙修复降智问题

GPT-5.5 来了。API 定价 $5/$30 每百万 token,GPT-5.4 的两倍。

但它并不更烧 token。

Sam Altman 在公布定价的同一条推文里补了一句:"Remember, you will need less tokens per task than 5.4!" 贵一倍,但每个任务 token 更少—— " 其实更划算 "。OpenAI 总裁 Greg Brockman 在发布会上给了更大的词:"a new class of intelligence."

先看模型本身。

主战场是 agentic coding 和长文本:Terminal-Bench 2.0 上 82.7%,碾压 Opus 4.7 的 69.4%;1M token context window 让长文本检索(MRCR v2)从 GPT-5.4 的 36.6% 跳到 74.0%,Opus 4.7 只有 32.2%。GDPval(覆盖 44 个职业的知识工作基准)84.9%。但 SWE-Bench Pro(代码修复)只有 58.6%,Opus 4.7 拿了 64.3% ——不是所有维度都赢。

用例方面,三个数字值得记住:24,771 份 K-1 税表(71,637 页)自动审阅省了两周;GPT-5.5 参与了一个 Ramsey 数渐近证明,研究者说原本需要数月人工分析;OpenAI 内部 85% 的员工每周都在用 Codex。

所以最大亮点不是 " 更聪明 "。是更贵但更高效——定价翻倍但单任务 token 消耗显著下降,推理速度通过与 NVIDIA GB200/GB300 的 co-design 提升了 20%。加上 Codex 同步升级了浏览器控制、Sheets/Docs 处理、系统级语音—— GPT-5.5 本质上是一个为 Codex 生态量身定制的模型。

这是官方叙事。但 4 月 23 日的故事不止一个模型。

Benchmark 先打起来了

发布当天,独立开发者 @bridgemindai 发了两条推文

第一条:"Claude Opus 4.7 dominates GPT 5.5 on SWE Bench Pro."

几小时后:"Claude Opus 4.7 is no longer the best model in the world. Not even close."

同一个人,同一天,结论完全相反。两边的数据都是真的:

SWE-Bench Pro(编码):GPT-5.5 不及 Opus 4.7。@deedydas 指出 OpenAI 刻意没在发布材料里报这个成绩—— "trying really hard to bury the lede."

Terminal-Bench 2.0(长时间推理):GPT-5.5 82.7% vs Opus 4.7 69.4%。碾压。

幻觉率(AA-Omniscience):GPT-5.5 为 86%,Opus 4.7 为 36%。上一代 GPT-5.4 是 89% ——两代之间只降了 3 个百分点。

Vending-Bench Arena(多人博弈):GPT-5.5 策略干净,照样赢了耍赖的 Opus 4.7。

宾夕法尼亚大学教授 Ethan Mollick 在给了个框架:jagged frontier。AI 的能力边界不是平线推进,是锯齿膨胀。选报道哪颗齿,就决定你讲什么故事。

这说明:当 " 谁最强 " 不再有统一答案,竞争重心就必须转移。

Codex 才是主菜

转移到哪?

GPT-5.5 发布同天,Codex 桌面端上线了浏览器控制、Sheets/Slides/Docs 处理、系统级语音、自动审查。Mollick 的分析框架值得借用:AI 有三层—— Models、Apps、Harnesses。4 月 23 日 OpenAI 三层同时升级。

更重要的是生态卡位。

Anthropic 封杀了 OpenClaw 通过订阅接口调用 Claude。OpenAI 则雇了 OpenClaw 创始人 Peter Steinberger,宣布 Codex 订阅可以在任何第三方工具里用—— JetBrains、Xcode、Pi,甚至 Claude Code。

OpenAI 开发者体验主管 Romain Huet 的原话:"We want people to be able to use Codex, and their ChatGPT subscription, wherever they like!"

Django Web 框架发起人 Simon Willison 用 Claude Code 逆向了 Codex 认证机制,做了个插件直接用订阅调 GPT-5.5。OpenAI 没封,还半官方鼓励。Codex CLI 已开源。

Anthropic 守 API 利润率。OpenAI 把订阅制变成了开放平台。

再看 API 延迟发布。官方说 "working on security and safeguards"。客观效果:API 上线前想用 GPT-5.5,唯一路径是 Codex 生态。用户被锁进了应用层。

涨价两倍 + API 延后 + Codex 全面升级开放第三方。三个同步决策,一个意图:不卖算力,抢入口。

竞争不在于模型本身了,主角是一整个生态的配套能力,抢的是未来的入口。

加速才刚开始

GPT-5.5 距 GPT-5.4 只隔了一个多月。OpenAI 首席科学家 Jakub Pachocki 在发布会上说了句让人意外的话:"I would say the last few years have been surprisingly slow."

过去几年——外界看来 AI 狂飙的几年——在 OpenAI 首席科学家眼里是慢的。

OpenAI 员工 @tszzl 透露已有研究者用 GPT-5.5 做 " 隔夜实验 ":给个算法 idea,通宵跑,醒来 dashboard 就绪。他的措辞是 "competent AI research partner"。不是 assistant,是 partner。

Mollick 四个 prompt 拿到一篇完整学术论文,统计方法正确,文献综述真实。问题不在能力—— " 假设不够有趣 "。

AI 的瓶颈从能力滑向了品味。模型的竞赛,从跑分滑向了生态。

OpenAI 在 4 月 23 日押注的不是更聪明的模型。是一个让用户走不掉的入口。

而对于 OpenAI 新模型最大的背书,来自死敌 Anthropic。

此前两者的竞争里,势头已经被 Anthropic 拿走,但这一次 OpenAI 的势头回来了。在发布当天,Claude 官方开发平台账号发布公告,承认了大家诟病已久的 " 降智 " 问题,并表示已经修复。

网友揶揄道:被用户指责了足足一个月后,在对手发布更强模型后你来承认和修复了。

这可能是 GPT 5.5 能力之强的最好背书。

相关标签
硅星人

硅星人

硅是创造未来的基础,欢迎登陆硅星球。

订阅

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容