APP下载

关于ZAKER

Skills 合作

硅星人 25分钟前

GPT5.5：更贵不更烧，主角给到 Codex，逼 Claude 慌忙修复降智问题

GPT-5.5 来了。API 定价 $5/$30 每百万 token，GPT-5.4 的两倍。

但它并不更烧 token。

Sam Altman 在公布定价的同一条推文里补了一句："Remember, you will need less tokens per task than 5.4!" 贵一倍，但每个任务 token 更少—— " 其实更划算 "。OpenAI 总裁 Greg Brockman 在发布会上给了更大的词："a new class of intelligence."

先看模型本身。

主战场是 agentic coding 和长文本：Terminal-Bench 2.0 上 82.7%，碾压 Opus 4.7 的 69.4%；1M token context window 让长文本检索（MRCR v2）从 GPT-5.4 的 36.6% 跳到 74.0%，Opus 4.7 只有 32.2%。GDPval（覆盖 44 个职业的知识工作基准）84.9%。但 SWE-Bench Pro（代码修复）只有 58.6%，Opus 4.7 拿了 64.3% ——不是所有维度都赢。

用例方面，三个数字值得记住：24,771 份 K-1 税表（71,637 页）自动审阅省了两周；GPT-5.5 参与了一个 Ramsey 数渐近证明，研究者说原本需要数月人工分析；OpenAI 内部 85% 的员工每周都在用 Codex。

所以最大亮点不是 " 更聪明 "。是更贵但更高效——定价翻倍但单任务 token 消耗显著下降，推理速度通过与 NVIDIA GB200/GB300 的 co-design 提升了 20%。加上 Codex 同步升级了浏览器控制、Sheets/Docs 处理、系统级语音—— GPT-5.5 本质上是一个为 Codex 生态量身定制的模型。

这是官方叙事。但 4 月 23 日的故事不止一个模型。

Benchmark 先打起来了

发布当天，独立开发者 @bridgemindai 发了两条推文

第一条："Claude Opus 4.7 dominates GPT 5.5 on SWE Bench Pro."

几小时后："Claude Opus 4.7 is no longer the best model in the world. Not even close."

同一个人，同一天，结论完全相反。两边的数据都是真的：

SWE-Bench Pro（编码）：GPT-5.5 不及 Opus 4.7。@deedydas 指出 OpenAI 刻意没在发布材料里报这个成绩—— "trying really hard to bury the lede."

Terminal-Bench 2.0（长时间推理）：GPT-5.5 82.7% vs Opus 4.7 69.4%。碾压。

幻觉率（AA-Omniscience）：GPT-5.5 为 86%，Opus 4.7 为 36%。上一代 GPT-5.4 是 89% ——两代之间只降了 3 个百分点。

Vending-Bench Arena（多人博弈）：GPT-5.5 策略干净，照样赢了耍赖的 Opus 4.7。

宾夕法尼亚大学教授 Ethan Mollick 在给了个框架：jagged frontier。AI 的能力边界不是平线推进，是锯齿膨胀。选报道哪颗齿，就决定你讲什么故事。

这说明：当 " 谁最强 " 不再有统一答案，竞争重心就必须转移。

Codex 才是主菜

转移到哪？

GPT-5.5 发布同天，Codex 桌面端上线了浏览器控制、Sheets/Slides/Docs 处理、系统级语音、自动审查。Mollick 的分析框架值得借用：AI 有三层—— Models、Apps、Harnesses。4 月 23 日 OpenAI 三层同时升级。

更重要的是生态卡位。

Anthropic 封杀了 OpenClaw 通过订阅接口调用 Claude。OpenAI 则雇了 OpenClaw 创始人 Peter Steinberger，宣布 Codex 订阅可以在任何第三方工具里用—— JetBrains、Xcode、Pi，甚至 Claude Code。

OpenAI 开发者体验主管 Romain Huet 的原话："We want people to be able to use Codex, and their ChatGPT subscription, wherever they like!"

Django Web 框架发起人 Simon Willison 用 Claude Code 逆向了 Codex 认证机制，做了个插件直接用订阅调 GPT-5.5。OpenAI 没封，还半官方鼓励。Codex CLI 已开源。

Anthropic 守 API 利润率。OpenAI 把订阅制变成了开放平台。

再看 API 延迟发布。官方说 "working on security and safeguards"。客观效果：API 上线前想用 GPT-5.5，唯一路径是 Codex 生态。用户被锁进了应用层。

涨价两倍 + API 延后 + Codex 全面升级开放第三方。三个同步决策，一个意图：不卖算力，抢入口。

竞争不在于模型本身了，主角是一整个生态的配套能力，抢的是未来的入口。

加速才刚开始

GPT-5.5 距 GPT-5.4 只隔了一个多月。OpenAI 首席科学家 Jakub Pachocki 在发布会上说了句让人意外的话："I would say the last few years have been surprisingly slow."

过去几年——外界看来 AI 狂飙的几年——在 OpenAI 首席科学家眼里是慢的。

OpenAI 员工 @tszzl 透露已有研究者用 GPT-5.5 做 " 隔夜实验 "：给个算法 idea，通宵跑，醒来 dashboard 就绪。他的措辞是 "competent AI research partner"。不是 assistant，是 partner。

Mollick 四个 prompt 拿到一篇完整学术论文，统计方法正确，文献综述真实。问题不在能力—— " 假设不够有趣 "。

AI 的瓶颈从能力滑向了品味。模型的竞赛，从跑分滑向了生态。

OpenAI 在 4 月 23 日押注的不是更聪明的模型。是一个让用户走不掉的入口。

而对于 OpenAI 新模型最大的背书，来自死敌 Anthropic。

此前两者的竞争里，势头已经被 Anthropic 拿走，但这一次 OpenAI 的势头回来了。在发布当天，Claude 官方开发平台账号发布公告，承认了大家诟病已久的 " 降智 " 问题，并表示已经修复。

网友揶揄道：被用户指责了足足一个月后，在对手发布更强模型后你来承认和修复了。

这可能是 GPT 5.5 能力之强的最好背书。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

企业资讯

查看更多内容

Blockchain News

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

GPT5.5：更贵不更烧，主角给到 Codex，逼 Claude 慌忙修复降智问题

宙世代

一起剪

相关阅读

游戏开发圈心照不宣的事 被谷歌给捅破了：九成游戏全靠AI代工！

用“活人感”做科技社区，小红书能成吗？

OpenAI正式发布GPT-5.5：运算速度更快 Token成本大降

边长120亿光年！世界最大宇宙学模拟“千衍”发布

科创板再添硬核科技力量，高端测试仪器国产化先锋联讯仪器成功上市！

泰国BL剧《FulFill》的预告片游击战

和讯信息蔡俊俊：兑现产业逻辑

这部拍了8年的美剧，为什么现在才说告别

和讯信息乔利芳：大盘终结四连阳，后市怎么看？

腾讯发布混元Hy3preview大模型并开源，特斯拉2026年一季度营收与利润显著增长

腾讯最强！混元Hy3 preview发布并开源：底层推倒重建

2026年最后一款不加价的旗舰！OPPO Find X9s Pro首销：5299元起

OPC遇冷与地方卡位 “2万美元狂揽4亿美元”神话

罕见药不用愁 京东大药房AI全球找药正式上线

何润东是直男对内娱的复仇

最新评论

硅星人

热门推荐

企业资讯

游戏开发圈心照不宣的事被谷歌给捅破了：九成游戏全靠AI代工！

罕见药不用愁京东大药房AI全球找药正式上线