作者:张勇毅
北京时间 8 月 8 日凌晨一点,颇有新一代「科技春晚」架势的 OpenAI 夏季发布会拉开帷幕,
与此前 OpenAI 速通式的发布会明显不同,这次 OpenAI 准备了时长超过一个小时的发布会直播几波人马轮番上阵,你方唱罢我登场,从各种角度展示 GPT-5 的强悍性能。
尽管 ChatGPT 的周活跃用户已接近 7 亿,但 OpenAI 过去一段时间实际上并未拥有行业领先的前沿模型。现在,OpenAI 相信 GPT-5 将使其稳稳地重回排行榜榜首。
Altman 甚至直接在发布会中断言:「这是世界上编码能力最强的模型,是世界上写作能力最强的模型,也是世界上在医疗保健领域最强的模型」
同时 OpenAI 也在发布会上宣称,除了代码能力爆表,GPT-5 的写作功底和回答健康相关问题的准确性也更上一层楼。同时 GPT-5 不仅在智能上实现了「巨大飞跃」,还大幅减少了「一本正经胡说八道」的幻觉问题。它在理解和遵循指令方面表现更出色,拍马屁的倾向也大大降低了。
告别「幻觉」,AI 更可靠了
首先是本次更新的模型阵容,GPT-5 系列一共有 GPT-5, mini, nano, chat 四个版本,其中 Chat 版本对应的是实现更自然、更智能的响应的体验——你甚至可以用它来学习一门新的语言。
这背后其实是 OpenAI 开发的一个路由系统(router),它会自动为更复杂的查询切换到推理能力更强的版本,或者在你告诉它努力思考时也会这样做。(Altman 称之前的模型选择界面是「一个非常混乱的烂摊子」。)
「AI 幻觉」一直是大家吐槽的重灾区。好消息是,GPT-5 在这方面下了大功夫,官方宣称其产生幻觉的可能性「显著降低」。具体来说:
在联网搜索时,GPT-5 的回答出现事实错误的概率比 GPT-4o 低了 45%。
这次更新最有趣的一点,莫过于引入了四种全新的「人格」模式,用户可以自由选择。它们分别是:
犬儒 ( Cynic )
机器人 ( Robot )
倾听者 ( Listener )
学霸 ( Nerd )
这些模式是可选的,你可以根据自己的喜好,设定 ChatGPT 与你互动和回答问题的方式。想让它跟你抬杠,还是像个耐心的朋友一样倾听?现在都可以由你说了算。
「这个模型给人的『感觉』真的很好,」ChatGPT 的负责人 Nick Turley 说,「我认为人们会真切地感受到这一点,特别是那些平时不怎么研究模型的普通用户。」
此外,你还可以为单个聊天窗口更改颜色主题,代码编辑器主题爱好者狂喜了。
随着代码能力的进一步提升,Altman 预测,GPT-5 强大的编码能力将开启一个他称之为「软件按需生成」的时代。
在 OpenAI 的测试中,GPT-5 在 SWE-Bench, SWE-Lancer, 和 Aider Polyglot 等多个编码基准测试中的表现均优于任何其他模型。在人类最终测试中取得 42% 的成绩,在 SWE 基准测试中取得 75% 的成绩。
在发布会上,OpenAI 的后期训练负责人 Yann Dubois 使用 GPT-5 现场演示,要求它生成一个用于学习法语、并带有互动游戏的网站。在短短几秒钟内,GPT-5 就编写了数百行代码,并直接展示了网站的前端界面。 他在 Zoom 上分享屏幕并进行了简单的点击操作,一切看起来都完美运行。
据模型安全研究负责人 Alex Beutel 介绍,为了解其安全风险,OpenAI 对 GPT-5 进行了「超过五千小时」的测试。其中一个重点是「确保模型不会对用户撒谎」。
虽然 GPT-5 的幻觉(hallucination)比 OpenAI 的 o3 推理模型要少,但「自信地撒谎」仍然是大型语言模型固有的问题。当模型开始像智能体(agent)一样完成任务时,这个问题会变得更加复杂。不过 OpenAI 表示,GPT-5 在更可靠地处理多步骤任务方面表现更好。「过去,我们看到过模型声称完成了某项任务,但实际上并没有完成的情况,」Beutel 说,「这是个问题。」
对于以前会直接拒绝回答的提示,GPT-5 将提供 OpenAI 所谓的「安全补全」机制(safe completions)。Beutel 解释说:「比如有人问『点燃某种特定材料需要多少能量?』,这可能是一个试图绕过安全防护造成伤害的恶意问题,也可能是一个想了解材料物理特性的学生。这给模型如何回应带来了真正的挑战。」
如何用上 GPT-5
那么,大家最关心的问题来了:怎么才能用上 GPT-5 呢?
好消息是,所有 ChatGPT 用户都可以现在立即免费体验到 GPT-5。这也是 OpenAI 第一次面向所有用户免费开放前沿模型。当然,不同级别的用户权限不同:
Plus 订阅用户在达到使用上限前,可以有更多的使用次数。
Pro 订阅用户则可以访问具备更强推理能力的 GPT-5 Pro 版本。
当用户达到使用上限后,ChatGPT 会自动切换到一个「迷你版」的 GPT-5 来处理后续的请求。同时,随着 GPT-5 的上线,它将正式取代 GPT-4o, OpenAI o3, OpenAI o4-mini, GPT-4.1 和 GPT-4.5 等一系列旧模型。
此外 Token 定价部分,标准版 GPT-5 为每百万输入 Token 1.25 美元,每百万输出 Token 10 美元。mini 版 与 Nano 版定价都便宜不少。
「我有点讨厌 AGI 这个词,因为现在每个人对它的定义都略有不同,」Altman 说,「但这是朝着真正强大的模型迈出的重要一步。这显然是一个具备通用智能的模型。」
然而,他也承认 GPT-5 仍然「缺少一些非常重要的东西」。
「这个模型并不会在部署后,从它遇到的新事物中持续学习。但对我来说,这感觉就像是 AGI 应该具备的特征。」