火星撞地球,新模型大战!
Claude Opus 4.6 发布仅仅 15 分钟,OpenAI 也甩出了自己最新最强编程模型——
GPT-5.3-Codex。

官方展示了两个 Demo:一个赛车游戏、一个潜水游戏。还蛮有风格的。

在网页开发上,除了 UI 更好看,对「意图」的理解也更强了。
即便 Prompt 给得不清楚,它也能自动补全逻辑,生成一个功能齐全的网站。

Computer use能力同样拉满,现在已经能用来帮金融从业者直接做 PPT。


更聪明:SWE-Bench Pro 57%,TerminalBench 2.0 76%,OSWorld 64%。
更可控:支持任务进行中的实时引导,可随时调整方向并获取更新。
更快速:完成相同任务时,所需 token 不到 5.2-Codex 的一半,单 token 速度提升超过 25%。
更 Agent:不只是更会写代码,计算机操作同样很强。
直接看这张对比表会更直观,几乎每一个维度,都比上一代有明显提升。

一天之内,两个重量级编程模型。



GPT 5.3 Codex
大家最关心的,当然还是编程能力。
OpenAI 表示,GPT-5.3-Codex 在SWE-Bench Pro上实现了 SOTA。
这是一个专为真实世界软件工程设计的测试,覆盖四种编程语言,整体难度更高、任务更丰富,也更贴近真实生产场景。


除了编程能力,新一代 Codex 的另一个重点是Computer use。
OSWorld 是一项面向智能体的计算机使用基准测试,要求模型在可视化的桌面计算机环境中完成各类生产力任务。
结果显示,GPT-5.3-Codex 在计算机使用能力上,明显强于此前的 GPT 模型。

更有意思的是,这次GPT-5.3-Codex 直接参与了自己的训练过程。
OpenAI 表示,这是他们首个参与「自我加速」的模型。Codex 团队在研发过程中使用其早期版本,来调试自身训练流程、管理部署,并评估测试结果。
官方也给出了一些具体例子。
在训练阶段,研究团队使用 Codex 监控和调试训练任务,帮助在整个训练过程中追踪模型行为变化,对交互进行深入分析,并提出改进方案。
在数据分析方面,一位数据科学家与 GPT-5.3-Codex 协作,构建了新的数据管道,并以远超传统仪表盘工具的方式对结果进行了可视化。
随后,研究人员与 Codex 一起分析这些结果,模型在不到三分钟内,就从数千个数据点中提炼出了关键洞见。
工程团队则借助 Codex 优化和适配 GPT-5.3-Codex 的测试与运行框架。
当开始出现影响用户体验的异常边缘案例时,团队成员通过 Codex 定位到了上下文渲染相关的缺陷,并进一步追溯到了缓存命中率偏低的原因。
Two More Things
与 Anthropic 的巅峰对决的确相当精彩,但 OpenAI 其实还有两个值得关注的大动作。
1、Frontier:一个帮助企业打造「AI 同事」的平台

具体实现方式,包括共享上下文、上手式的入职引导、带反馈的实践学习,以及清晰的权限与边界。
据悉,HP、Intuit、Oracle、State Farm、Thermo Fisher 和 Uber 等知名企业,已经早早采用了 Frontier。
2、AI4S:OpenAI 和 Ginkgo 联手,用 GPT-5 把蛋白质合成成本打下来了 40%

2026 年,或许是 AI4S 加速演进的一年。
不过,在 OpenAI 忙着和 Anthropic 对狙,网友们被一系列新动态弄的眼花缭乱的同时,评论区也有另一种声音。
把 4o 还给我!!

或许,真的是和 Anthropic 打得太忙了。

[ 1 ] https://openai.com/index/introducing-gpt-5-3-codex/
[ 2 ] https://openai.com/index/introducing-openai-frontier/
[ 3 ] https://x.com/i/trending/2019496485793198148
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度「AI 100」产品榜单正式发布!
量子位智库通过三大板块——最强综合实力的「旗舰 AI 100」、最具未来潜力的「创新 AI 100」和十大热门赛道代表产品,全面梳理 2025 年度国内 C 端 AI 产品的发展脉络与创新成果。
一键关注 点亮星标
科技前沿进展每日见