APP下载

关于ZAKER

合作

量子位 12小时前

GPT-5.3 上线 Codex！OpenAI 回应 Claude 新模型只用了 15 分钟

火星撞地球，新模型大战！

Claude Opus 4.6 发布仅仅 15 分钟，OpenAI 也甩出了自己最新最强编程模型——

GPT-5.3-Codex。

最直观的感受是，这个新模型终于有点美学品味了。

官方展示了两个 Demo：一个赛车游戏、一个潜水游戏。还蛮有风格的。

据说，GPT-5.3-Codex 在几乎没有人工干预的情况下，持续迭代这些游戏，累计消耗了数百万 token。

在网页开发上，除了 UI 更好看，对「意图」的理解也更强了。

即便 Prompt 给得不清楚，它也能自动补全逻辑，生成一个功能齐全的网站。

就这些 Demo 来看，设计感确实比之前强了一截。

Computer use能力同样拉满，现在已经能用来帮金融从业者直接做 PPT。

其他职场工作也能覆盖，尤其是在专业知识密集型任务上，写文档、做电子表格都没什么问题。

硬实力方面，官方给出的亮点如下：

更聪明：SWE-Bench Pro 57%，TerminalBench 2.0 76%，OSWorld 64%。

更可控：支持任务进行中的实时引导，可随时调整方向并获取更新。

更快速：完成相同任务时，所需 token 不到 5.2-Codex 的一半，单 token 速度提升超过 25%。

更 Agent：不只是更会写代码，计算机操作同样很强。

直接看这张对比表会更直观，几乎每一个维度，都比上一代有明显提升。

网友直呼过于刺激，昨天 OpenAI 刚被 Anthropic 拿广告狙了一枪，今天就对轰了回来。

一天之内，两个重量级编程模型。

评论区也迅速分成了 Anthropic 派和 OpenAI 派。

下面来看看，这场奥特曼主动挑起的 AI coding 大战，OpenAI 到底表现如何？

GPT 5.3 Codex

大家最关心的，当然还是编程能力。

OpenAI 表示，GPT-5.3-Codex 在SWE-Bench Pro上实现了 SOTA。

这是一个专为真实世界软件工程设计的测试，覆盖四种编程语言，整体难度更高、任务更丰富，也更贴近真实生产场景。

同时，GPT-5.3-Codex 在 Terminal-Bench 2.0 上的表现也有明显提升。

更关键的是效率。在拿下这些成绩的同时，GPT-5.3-Codex使用的 token 数量少于任何以往模型。

除了编程能力，新一代 Codex 的另一个重点是Computer use。

OSWorld 是一项面向智能体的计算机使用基准测试，要求模型在可视化的桌面计算机环境中完成各类生产力任务。

结果显示，GPT-5.3-Codex 在计算机使用能力上，明显强于此前的 GPT 模型。

综上，GPT-5.3-Codex 不是一次单点模型能力突破，更像是基于智能体的全方位发展，编码、前端开发、计算机操作全都有提升。

更有意思的是，这次GPT-5.3-Codex 直接参与了自己的训练过程。

OpenAI 表示，这是他们首个参与「自我加速」的模型。Codex 团队在研发过程中使用其早期版本，来调试自身训练流程、管理部署，并评估测试结果。

官方也给出了一些具体例子。

在训练阶段，研究团队使用 Codex 监控和调试训练任务，帮助在整个训练过程中追踪模型行为变化，对交互进行深入分析，并提出改进方案。

在数据分析方面，一位数据科学家与 GPT-5.3-Codex 协作，构建了新的数据管道，并以远超传统仪表盘工具的方式对结果进行了可视化。

随后，研究人员与 Codex 一起分析这些结果，模型在不到三分钟内，就从数千个数据点中提炼出了关键洞见。

工程团队则借助 Codex 优化和适配 GPT-5.3-Codex 的测试与运行框架。

当开始出现影响用户体验的异常边缘案例时，团队成员通过 Codex 定位到了上下文渲染相关的缺陷，并进一步追溯到了缓存命中率偏低的原因。

Two More Things

与 Anthropic 的巅峰对决的确相当精彩，但 OpenAI 其实还有两个值得关注的大动作。

1、Frontier：一个帮助企业打造「AI 同事」的平台

这是 OpenAI 一项相当重磅的 ToB 业务，目标很明确：让 Agent 真正进入公司工作流。

具体实现方式，包括共享上下文、上手式的入职引导、带反馈的实践学习，以及清晰的权限与边界。

据悉，HP、Intuit、Oracle、State Farm、Thermo Fisher 和 Uber 等知名企业，已经早早采用了 Frontier。

2、AI4S：OpenAI 和 Ginkgo 联手，用 GPT-5 把蛋白质合成成本打下来了 40%

这是一家做合成生物学的实验室型公司，他们将 GPT-5 接入一座自主实验室，让模型可以提出实验方案、规模化执行实验、从结果中学习，并决定下一步该尝试什么，完整跑通了一个闭环。

2026 年，或许是 AI4S 加速演进的一年。

不过，在 OpenAI 忙着和 Anthropic 对狙，网友们被一系列新动态弄的眼花缭乱的同时，评论区也有另一种声音。

把 4o 还给我！！

直到现在，奥特曼依然没有回应 4o 被彻底下架这件事。

或许，真的是和 Anthropic 打得太忙了。

参考链接：

[ 1 ] https://openai.com/index/introducing-gpt-5-3-codex/

[ 2 ] https://openai.com/index/introducing-openai-frontier/

[ 3 ] https://x.com/i/trending/2019496485793198148

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

年度「AI 100」产品榜单正式发布！

量子位智库通过三大板块——最强综合实力的「旗舰 AI 100」、最具未来潜力的「创新 AI 100」和十大热门赛道代表产品，全面梳理 2025 年度国内 C 端 AI 产品的发展脉络与创新成果。

一键关注点亮星标

科技前沿进展每日见

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

春节红包大战背后，真正的AI社交终于开始了

钛媒体 4小时前

从质疑到追捧，AI制药成果落地加速

钛媒体 4小时前

单量激增近10倍！千问推出“一句话点奶茶”活动，有商家系统崩溃

21世纪经济报道 6小时前

加密市场24小时58万人爆仓！“大空头”：比特币恐重演2022年崩盘模式

财经新闻 8小时前

马斯克断言地球电力将枯竭：AI数据中心3年内被迫上天

快科技 8小时前

小米17 Ultra将亮相MWC：国际版电池容量降为6000mAh

快科技 7小时前

猫头鹰宣布已发货50万套散热器升级套件：始于AMD AM2、坚持二十年

快科技 7小时前

AI激发全民创作热情！首届京东AI影视创作大赛掀“人人皆导演”风潮

21世纪经济报道 7小时前

陈天桥：模仿人类不是AI的正确方向

21世纪经济报道 8小时前

科技世界中，被遗忘的班加罗尔

钛媒体 9小时前

从“成本倒挂”到“亿级印钞机”：谷歌Gemini API如何终结AI英雄主义？

钛媒体 10小时前

消失的大厂年会回来了？深圳科技新贵豪撒金条银条，有游戏公司全员发黄金

时代财经 4小时前

OPPO Find X9 Ultra入网：机圈望远镜来了支持10倍光学变焦

快科技 11小时前

锐龙9000系列CPU在华擎主板上翻车：官方发布声明！

快科技 11小时前

AI芯片厂商，集体被存储“卡住咽喉”

21世纪经济报道 12小时前

量子位

觉得文章不错，微信扫描分享好友

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅