GPT-5.4,它来了!
它更像是一个 " 模型能力大一统 " 成果:OpenAI 首次在单一模型中,把推理(Reasoning)、编程(Coding)、计算机原生交互(Computer Use)、深度网页搜索以及百万级 Token 上下文全部揉碎、重组,焊死在了同一个模型里。
重点是,没有因为 N in one 而牺牲掉任何一个单项的性能——
OpenAI 特别强调,GPT-5.4 在以上领域的多个关键基准测试中依然保持领先。
跳票许久的 OpenAI,终于冷不丁给了 AI 大模型圈梆梆一拳。

我耳边都已经听到 GPT-5.4 的声音了:
玩儿龙虾的朋友们,走过路过考虑一下我咯~

相比 GPT-5.2,GPT-5.4 在推理过程中使用的 Token 数量显著减少。
Token 消耗下降意味着响应速度更快,同时整体成本也更低。
是的,它变强了,但也变便宜、变快了。
这也是 OpenAI 这次发布反复强调的一点:能力提升和效率优化是同时发生的。

GPT-5.4 同步上线 ChatGPT、API 以及 Codex。
在 API 价格体系中,GPT-5.4 的单 Token 价格略高于 GPT-5.2,但由于任务所需 Token 减少,总体成本可能并不会上升太多。
面向复杂任务的 GPT-5.4 Pro 版本也一起推出,在 ChatGPT 中则提供为 GPT-5.4 Thinking。
值得小伙伴们注意的一点,GPT-5.4 Thinking 将取代此前的 GPT-5.2 Thinking,且 GPT-5.2 将在三个月后正式退役。
而 GPT-5.1 系列将在 3 月 11 日就要从 ChatGPT 里 say bye bye 了。
珍惜你们最后相处的甜蜜时光吧~

有网友感慨道拥有百万 token 上下文窗口、还能原生使用电脑的 GPT-5.4,和苹果史上最便宜笔记本电脑 MacBook Neo 同周发布……
" 天爷啊,我的笔记本电脑正在经历一场存在主义危机!!"

在具体能力层面,GPT-5.4 的升级可以概括为三个方向:
深度知识工作 ( Knowledge Work)
原生计算机使用 ( Computer Use)
高阶编程与调试 ( Coding)
这三种能力基本覆盖了当前大多数数字工作的核心流程,而 GPT-5.4 都做得挺出色。

深度知识工作 ( Knowledge Work)
首先是知识工作能力。
在衡量 AI 处理 44 种职业知识工作能力的 GDPval 基准测试中,它平局 + 获胜的综合得分 83.0%。

具体任务上并不只是简单问答,它要求模型完成真实工作产物,例如销售演示文稿、会计表格、排班表、制造流程图甚至短视频。
所以在大量知识工作任务中,GPT-5.4 的结果已经能够与专业从业者持平,甚至超过他们。
此外,OpenAI 特别强化了 GPT-5.4 在办公文档领域的能力。
例如在内部投资银行建模测试中,GPT-5.4 的平均得分达到 87.3%,而 GPT-5.2 为 68.4%。在人类评审的 PPT 生成测试中,评委有 68% 的时间更偏好 GPT-5.4 生成的结果,原因包括视觉效果更好、版式更丰富以及图片使用更合理。
从应用角度来看,这些能力对应的场景非常直接。
包括写报告、做财务模型、制作演示文稿、分析商业数据等工作,都是典型的知识型任务。
GPT-5.4 正在朝着这类任务进行专门优化。

GPT-5.4 最引人关注的一项能力是原生计算机操作,这是 GPT-5.4 区别于以往所有模型的核心标志。
模型可以通过截图理解软件界面,然后执行鼠标点击和键盘输入等操作。
包括发送邮件、创建日历事件、填写表单、操作网页等……都可以通过这种方式完成。

在 Online-Mind2Web 测试中,仅通过截图观察完成网页操作时,GPT-5.4 的成功率达到 92.8%。
此外,在 OSWorld-Verified 基准测试中,GPT-5.4 在桌面操作任务中的成功率达到 75.0%,已经超过人类平均水平(72.4%)。

高阶编程与调试
第三个关键能力来自编程。
而且强调的是 " 高阶编程 "。
GPT-5.4 吸纳了此前最强的编程模型 GPT-5.3-Codex 的能力。现在的它不仅支持 Token 输出速度提升 1.5 倍的 /fast 模式,还加入了一个名为 "Playwright ( Interactive ) " 的实验性技能。
它允许 AI 在帮你写网页或者应用时,开启一个窗口进行视觉化调试。
比如你给它一个简单的需求去做模拟游戏,它能一边生成美术资产、一边写逻辑,甚至一边运行自动测试来验证游戏状态是否正常。
在 SWE-Bench Pro 测试中,GPT-5.4 取得 57.7% 的成绩,略高于 GPT-5.3-Codex 的 56.8%,同时延迟更低。

为了展示这一能力,OpenAI 演示了一个由 GPT-5.4 生成的浏览器主题公园模拟游戏。
模型从简单提示词出发,生成游戏资源、构建场景、编写逻辑,并通过自动浏览器测试不断迭代。

一种趋势不言而喻:
UI 交互正在取代繁琐的 API 对接,成为 AI 操作世界的新主流路径。
emmmm,这可能会让很多中间件失去价值。
整体定位:AI 数字员工
看完上述能力的整合,你就能读懂 OpenAI 在官方博文里透露出的野心。
OpenAI 在发布文章中多次提到:
GPT-5.4 的目标是成为能够完成真实工作的 Agent 系统。
如果说之前的 GPT 模型版本还是一个需要你盯着看的辅助工具,那么 GPT-5.4 已经开始尝试成为一个能独立负责整块业务的数字员工。
这种 "AI 数字员工化 " 体现在三个维度的飞跃。
首先是电脑操作能力。
模型可以通过截图理解软件界面,并通过鼠标和键盘指令进行操作。
这使得 AI 能够直接在电脑环境中执行任务。
其次是浏览器任务能力。
在 BrowseComp 测试中,GPT-5.4 的成绩达到 82.7%,而 GPT-5.4 Pro 达到 89.3%,比 GPT-5.2 提升 17 个百分点。
这意味着模型能够持续搜索网页、筛选信息并整合结果,尤其适合处理需要多轮检索的问题。

在 Toolathlon 基准测试中,GPT-5.4 取得 54.6% 的准确率,高于 GPT-5.2 的 45.7%。
这个测试的任务通常需要多步骤操作,例如读取邮件附件、上传文件、评分作业并记录到表格中。

此外,对于对延迟要求较高的场景(在这种场景中,人们倾向于不进行推理操作),GPT-5.4 比其前辈版本有了进一步的改进。

除了上述支柱能力,GPT-5.4 在办公细节上也进行了大量打磨。
比如它在创建和编辑电子表格、PPT 方面的表现,其表格建模准确率从 68.4% 跃升至 87.3%。
在演示文稿生成测试中,人类评审也更偏好 GPT-5.4 的结果,认为其视觉多样性和审美更强。
同时,视觉能力的提升也带动了文档解析的进步。
在 MMMU-Pro 视觉推理测试中,GPT-5.4 取得 81.2% 的准确率,高于 GPT-5.2 的 79.5%。

视觉能力的提升也带来了更强的文档解析能力。
在 OmniDocBench 测试中,GPT-5.4 的平均错误率从 0.140 下降到 0.109。

从官方介绍中能初步感觉到,GPT-5.4 是个极其讲求事实的模型,其事实错误概率比前代降低了 33%,大大缓解了用户对模型幻觉的焦虑。

过去模型在使用工具时,需要在 Prompt 中包含所有工具定义。如果工具数量很多,Prompt 就会变得非常庞大。
现在模型可以先获取工具列表,然后按需查询具体工具定义。
在实现相同准确率的情况下,将总 Token 使用率降低了 47%。
这种成本控制手段说明 OpenAI 正试图让大模型大规模商业化变得更加现实,毕竟对于企业来说,省钱和好用同等重要。
更好用了,但更省钱了吗?
从 OpenAI 公布的 API 定价表来看,GPT-5.4 的定价确实比 5.2 版本要高出一截。
GPT-5.2 的每百万 Token 输入 / 输出价格分别是 1.75 美元和 14 美元,而 GPT-5.4 则上涨到了 2.5 美元和 15 美元。
尤其是对于那些追求极限性能的用户,GPT-5.4 Pro 的价格更是飙升到了每百万输入 30 美元。
当然,原因肯定是 5.4 被定位为针对专业机构和高端生产力场景的溢价产品。
如果你只是写写简单的闲聊文案,继续用 5.2 其实更划算。

最核心的一点是就是工具搜索(Tool Search)功能。
以往我们让 AI 接入外部工具(比如接入几十个公司的数据库和内部接口)时,必须把所有工具的定义全部塞进提示词里。
哪怕 AI 这次只用了一个工具,你也得为剩下的几十个工具的定义支付 Token 费用。
但在 GPT-5.4 下,由于引入了类似 " 查字典 " 的搜索机制,模型可以先看一遍简略的工具清单,等确定要用哪个时,再临时去调取那个工具的详细定义。
在针对 MCP Atlas 基准测试的实验中,这项技术在保持同等准确率的情况下,把总 Token 使用量足足降低了 47%。

大家沉浸在技术狂欢中时,也有网友分享了一些肉痛瞬间。
永远在冲浪一线的 Yuchen Jin 只是对 GPT 5.4 Pro 说了一句 "Hi,俺是 Anthropic 创始人 ",就花掉了整整 560 元……

这也引出一个问题,杀鸡焉用牛刀?
如果 GPT-5.4 Pro 是最智能、最接近 AGI 的模型……那么,你有什么 AGI 级别的问题要问它呢?
(何况还这么贵,TAT)

欢迎在评论区留下你的想法!
— 完 —
今天,你养虾了吗?
欢迎加入【龙虾养成讨论组】,一起交流养虾经验!扫码添加小助手加入社群,记得备注【OPENCLAW】哦~

科技前沿进展每日见