关于ZAKER Skills 合作
钛媒体 19分钟前

提示词过时了?GPT-5.5 已具备直觉,只需指明目标 AI 就能自动接管

编辑|划重点 KeyPoints

近期,OpenAI 总裁兼联合创始人 Greg Brockman 在 Big Technology Podcast 的特别访谈中,首次披露了 GPT-5.5 的几个核心细节。

Greg Brockman 表示,过去两年 AI 行业堆砌模型理论智力的阶段已经告一段落,AI 现在已经正式准备好接管具体的执行工作。AI 正从单纯的大脑系统跨越到了全新的智能应用形态。

Greg Brockman 称,在实际应用中,GPT-5.5 展现出了极强的直觉和上下文理解能力,让人类得以彻底告别繁琐的提示词工程(Prompt Engineering)。这意味着人与计算机的交互方式发生了根本性改变:用户现在只需设定总体目标,模型就能自动接管并端到端地解决问题。

以下是我们梳理的这场深度访谈的核心重点内容:

1、GPT-5.5 的突破在于真正跨越了商业任务的实用性门槛

过去,大模型高度依赖复杂的提示词工程进行按步指导;现在,凭借更深层的上下文与直觉理解,用户只需下达总体目标,模型即可自主接管浏览器、处理复杂表格或制作演示文稿。在全新的工作流中,AI 构成执行的躯干和大脑,人类则从具体的点击与编写中抽离,彻底转变为 " 监督者 "。个人的生产力将被无限放大,每个人都等同于在管理一家全自动化运行的数字企业。

2、开源蒸馏无法复制端到端的系统能力

面对开源模型利用 " 蒸馏技术 " 快速追赶的行业态势,OpenAI 的真正护城河并非单一的模型参数。Brockman 表示,单纯的模型蒸馏无法复制 GPT-5.5 的实际表现。真正的竞争壁垒在于 " 端到端的系统协同设计能力 " ——它涵盖了算力集群调度、数据管线、组织架构以及安全对齐的无缝配合。这种持续测试、迭代前沿 AI 的系统性工程能力(即 " 制造机器的机器 "),是开源社区无法轻易抹平的代差。

3. 规模化部署必须强绑定企业级 IT 风控

随着 AI 系统获取更多的操作权限,安全可控成为核心议题。不同于 Anthropic 的 " 未公开部署 " 策略,OpenAI 坚持 " 迭代部署 ",主张优先将模型交给网络防御者测试,以提高真实生态的抗风险能力。 更关键的挑战在于规模化管理:当企业内部的自主智能体从几个膨胀到数十万个时,原有的管理模式必将失效。因此,Agent 的大规模自治必须与严格的可观测性和企业级 IT 治理架构强绑定,确保数字员工的执行始终处于人类的监督沙箱内。

4. 用底层算力规模,换取解决人类难题的速度

世界正进入算力驱动的新阶段:投入的算力越多,解决问题的速度就越快。人类在科学与工程领域的上限,将直接取决于可用算力的天花板。 以医疗为例,未来可调动十亿瓦特级数据中心的专属算力,让 AI 在数月内持续推演、咨询专家数据并设计实验,以此攻克阿尔茨海默症等复杂疾病。算力将取代传统资源,成为解决日常商业事务与重大科学命题的核心基础设施,全球对算力的需求将面临长期的结构性增长。

以下为 Greg Brockman 访谈实录:

1.OpenAI 的 Agent 路线图

Alex:本期节目邀请到了 OpenAI 总裁兼联合创始人 Greg Brockman,我们将深入探讨 GPT5.5,即著名的 Spud 模型,看看它的功能以及它对 OpenAI 的意义。Greg,很高兴见到你。欢迎回到节目。

Greg Brockman:谢谢你的邀请。希望这不算太紧急的情况。

Alex:那么我们就从这里开始吧。你能确认 GPT5.5 就是 Spud 吗?

Greg Brockman:是的。GPT5.5 是一个令人惊叹的模型。我认为在许多方面它是迈向使用计算机完成工作新方式的一步。这是一种全新的智能类别。它在编程以及调试的各个方面非常有用,在解决非常困难和棘手的问题时表现得非常有主动性,能够真正以极少的指令端到端地解决问题。

但对我来说最引人注目的并不一定是它在编程能力上的提升,我觉得那是大家预料之中的。最引人注目的是它现在真正跨越了实用性的门槛,适用于各类通用应用程序。它在创建幻灯片、电子表格方面表现得更好,在计算机操作、使用浏览器以及点击浏览那些原本难以让 AI 运行的应用程序方面也出色得多。因此我认为我们确实正在见证这种使用计算机新方式的兴起,而这一切都始于这种核心智能。

Alex:我们上次交谈时你提到这实际上是长达两年的研究过程的巅峰之作。那么这是在两年前就计划好的吗?OpenAI 的计划周期有那么长吗?

Greg Brockman:是的,我们的规划确实有着非常长远的眼光。需要注意的是,我们将许多研究想法和赌注堆叠在各种时间尺度上,在技术栈的每一个环节取得持续进展。因此 GPT5.5 所代表的并不是终点,在许多方面它是一个起点。这实际上是迈向我们预见在接下来几个月即将到来的那一类模型的一步。大家可以期待我们在更广泛的领域实现更大幅度的能力提升,涵盖模型所能完成任务的各个方面。这将是非常令人兴奋的事情。我们一直在思考如何让我们生产的产品对现实世界的用途、真实用户和实际应用变得更加有用。

Alex:你能否具体分享一下在接下来的几个月里我们应该关注哪些方面?如果这只是一个开始,那么它是什么的开始?

Greg Brockman:我们的宏伟愿景体现在许多事物中,不仅仅是模型。你可以将模型看作是大脑,将系统、测试框架以及超级应用等应用程序想象成围绕它构建的躯体,使其成为一个有用的 AI。这正是目前正在发生的转变:从我们这类实验室产出的语言模型转向真正实用的 AI,转向一个真正能够根据你的指令协助你、努力达成你的目标并实际运行的助手。

你可以看到现在的 Codex 不再仅限于程序员使用,它实际上适用于任何使用电脑的人。它目前并不完美,在某些任务中理应能做到但做得并不完全正确,有时它的个性并不完全是你想要的。它功能极其强大并在外面做了很多了不起的事情,但你仍然需要花一些时间去仔细阅读它的沟通内容以确认它是如何解决问题的。对于这些方面,我们非常清楚如何将它们做得更好。从 5.4 到 5.5,我们已经取得了非常显著的进步。在接下来的过程中,我们还将在各个方面取得更加显著的提升,从而让这些模型变得更加实用。在内部我们一直在深入思考最终应用。

在过去的十二到十八个月里有一件事发生了变化,那就是我们过去只专注于继续改进基准测试,让这些模型在大脑层面更强大。但我们现在的重点是将它们投入到现实世界的应用中,思考财务、销售、营销以及每一个职能部门中人们如何使用电脑,我们如何协助他们的电脑工作。我们思考如何让模型不仅具备理论上的辅助能力,而且还能拥有实际经验,能够识别出什么是优秀的成果。

我认为我们正在迈向这样一个境地,即工作者将成为监督者。你几乎就是这个自动化公司的 CEO,它们正根据你的目标运行。你仍然掌握着主导权并负有责任,你需要思考这是否是你想要的、工作是否达到标准。但关于具体点击了哪些按钮、编写代码的具体方式或者电子表格的具体运作机制,如果这些对你并不重要,你可以将自己从中抽象出来,只专注于评估成果是否符合预期。所以这就像是在为每一位工作者增加杠杆。

2. 端到端协同设计值得投资

Alex:好的。正如你所提到的,这是两年工作的结晶。为了我们的观众我解释一下,AI 训练有两种不同类型。第一种是预训练,在这个阶段你只需让模型预测下一个词以使其变得通才且智能;第二种是强化学习,让它能够真正地去执行并尝试完成不同的任务,当它出色且有效地完成这些任务时给予奖励,它在某种程度上就学会了如何完成这些任务。所以你的意思基本上是说,这期间 OpenAI 加载了大量针对特定任务的强化学习内容并注入到这个模型中,这就是产生你所说的那些结果的原因吗?

Greg Brockman:我会用稍微不同的方式来表达。在整个流程中有很多步骤,包括预训练、中期训练、强化学习以及数据收集等。这些不同的环节共同作用,最终产出结果并决定了模型与世界连接的方式。这也是使其变得实用的关键所在。我们一直在针对其中的每一项进行投入,这不仅仅关乎致力于各个环节的个人能力,更是一个真正凝聚在一起的团队在审视整个技术栈,探讨我们如何让它对现实世界的应用变得更有用。

所以这并不是由我们所做的某单一事项决定的。这实际上关乎整体的努力。就像造一辆汽车一样,这不仅仅在于你是否拥有一个更好的引擎。你可以造出一台伟大的引擎,但如果汽车的其他部分达不到引擎的质量水平那也无济于事。这才是真正的创新:它是端到端的协同设计,所有环节都以可重复的方式结合在一起,使模型变得越来越好以服务我们的用户。

Alex:你早些时候和我一起参加了一个有许多媒体成员参与的电话会议。其中一件有趣的事是你开门见山地说该模型能更直观地理解你的需求,不需要像过去那样一字不差地详细说明。这里有一条来自 roon 的推文:已有早期迹象表明 5.5 是一个称职的 AI 研究伙伴。几位研究人员让 5.5 在夜间运行各种变体实验,仅需提供高层级的算法构思,醒来后便能看到完整的实验组、仪表板和样本,完全没有接触过代码或终端。关于这一点,这是一个由两部分组成的问题:你们是如何做到的?这是否意味着提示工程已经过时了?

Greg Brockman:首先,当我们说存在一种新类别的智能时,这是我们的真实意图。模型正变得更加易于直观使用,因为它们拥有更深层的理解能力,能够真正审视上下文并琢磨出被要求做什么。

至于第二部分,提示工程是否已经过时?我实际上认为在某些方面提示工程可能比以前更具活力。现在你花了大量时间试图向电脑解释你到底想要什么,塞进各种上下文说明现状和要求。你心里会想为什么非得跟电脑解释这些?重点在于电脑本就应该通过工作来协助我。我不希望还得拆解任务一步步教它该怎么做,只想给它指明一个方向,希望它处理好细节并交付结果,并在过程中提供某种形式的反馈,成为底层执行的驱动者。因此提示工程的未来在于你可以用更少的努力从模型中获得更多,而付出同样的努力时你依然拥有一个乘数效应,你会获得更大的提升。我们现在正处于当今模型能力上限的最前沿阶段。

Alex:好的。让我简要地与各位谈谈构建这样一个模型的经济成本。虽然你没有说明投入了多少资金或算力用于训练这个庞大的巨型模型,但我们可以稳妥地假设这是一笔巨大的投入。一直以来都有这样一个模式:这些巨型模型发布后会被开源模型制作者进行蒸馏,然后开源模型就只落后领先的基础模型几个月的时间。我现在很好奇,既然投入如此巨大,而且随着不断推进,模型的能力提升得相当剧烈。那么该如何保持护城河呢?从长远来看,如果只是让这种模式一遍又一遍地重复,这又有什么意义?

Greg Brockman:我的看法略有不同。我认为真正的投资是投入到端到端的协同设计中,构建一个系统以及一套将开发人员和技术结合的协同工作方式,其中一部分涉及如何利用庞大的超级计算机来生产这些模型。

现在的情况并非获取模型输出并进行蒸馏,就能简单获得完全相同能力、只是体积更小且运行更快的模型。如果确实如此,我们早就这么做了,那样提供服务也会容易得多。虽然蒸馏技术背后蕴含着大量绝妙的技巧,但我想表达的重点是,我们真正投入的是制造机器的机器。

在部署端,我们对安全保障和缓解措施进行了深入思考,针对模型可能被误用的各个方面在实际场景中进行了大量测试。多年来我们一直致力于此,并在网络安全和生物等领域深入思考这些问题。这种努力体现在我们公开的备灾框架 ( Preparedness Framework ) 中,它规定了我们如何处理模型的用途,以及如何尝试最大化收益并降低风险。因此我们所做的每一件事都需要紧密相连,这关乎如何确保持续取得进展的同时,让模型能被广泛获取。因为我们深信这项技术能够赋能于人,造福人类并提升每个人的生活水平。

3. 模型护城河与蒸馏模型

Alex:回到刚才的话题,这个模型的定价据我所知是上一个模型 GPT 5.4 的两倍。从经济或业务角度来看,既然你们已经为训练模型投入了如此多的基础设施,如果开源模型能以更低成本提供稍逊一筹但几乎相当的性能,你们将如何应对这种威胁?

Greg Brockman:回顾我们的历史,发展并非由竞争驱动,而是源于我们自身的进步渴望。在同等智能水平上,我们的价格同比已经大幅下降,有时甚至降低了两个数量级达到 100 倍。然而典型的杰文斯悖论 ( Jevons Paradox ) 一直在上演,即当你降低了某项事物的成本,反而会引发远比以往更多的活动。

我们不断看到智能确实能带来回报,对于模型现在能完成的任务类型来说,哪怕只是一点点智能提升,也能产生巨大影响。这正是 5.5 版本的核心意义所在。人们可能认为这只是智能水平上的一次增量改进,但我认为它在实际用途上会带来巨大提升。实际上,用 " 增量式更新 " 来形容这个模型非常保守,它虽然只是 0.1 的版本更迭,但大大低估了模型在实际工作中所展现出的神奇之处。

如果外界看到数字就认为 OpenAI 面临 IPO 压力,导致免费午餐时代结束,我是反对这种观点的。我们的业务模式其实非常简单,即租赁并构建计算资源,然后以一定的利润空间转售。只要对智能存在可扩展的需求,只要还有问题需要解决,这种模式就成立。在每个阶段我们都看到需求远超供给,所以我们可以不断扩展算力规模。

我的核心指令是要求团队思考如何在原始算力之上增加价值,并确保保持正向的运营利润率。这与市场竞争无关,关键在于能否高效地将算力转化为智能,让产出价值高于投入成本。我们始终在努力打造更高效的模型,市场竞争极大地推动了创新,带动了更多的使用量和生态系统的整体规模提升。这可以从我们以及行业内其他公司的营收数据中看出来。

4. 模型网络安全风险

Alex:Greg,我想请教关于网络安全影响的问题。OpenAI 和 Anthropic 采取了截然不同的方式。Anthropic 最新的巨型模型 Mythos 并没有向公众发布,而你们的 Spud 或 5.5 模型却是公开的。我想直接问你,在缺乏循序渐进实践的情况下将这种强大的模型公之于众,是否可能导致重大网络攻击?

Greg Brockman:我对这个问题的前提有不同看法。作为备灾框架的一部分,我们多年来一直在网络安全防护领域投入。早在预见各种能力出现之前,我们就已提前布局。我们一直采取非常审慎、循序渐进的方法。过去几周我们扩大了网络安全项目的受信任访问权限。总体而言,我们相信生态系统的韧性,同时也认为需要循序渐进。

随着模型持续变得更强大,我们希望将更卓越的模型交到防御者手中,以确保能够保护关键基础设施。当模型被交到人们手中时,他们会以超乎想象的方式进行探索,没有这种访问权限是无法实现的。因此必须采用循序渐进的方法,并在流水线中不断推进,通过引入额外的安全防护措施来最大化收益并降低风险。

我们的团队一直在深入思考模型在网络安全方面的影响。我们相信迭代式部署是随着模型改进将其推向实际应用的一部分。我们坚信访问民主化,创造这项技术的最终目的是赋能于人,确保其造福全人类。因此我们一直努力解决如何安全且负责任地将这项技术广泛应用于世界。

Alex:没错。你的团队似乎并不喜欢 Anthropic 部署 Mythos 的方式。用 Sam 的原话来说,宣称制造了一枚炸弹并准备投下,然后以 1 亿的价格向被选中的客户出售防空洞,这是极其出色的营销手段。但另一种情况是,开发者无法考虑到所有因素,必然会出现一些只有实际部署才能发现的漏洞。所以在广泛部署之前,先从一小群受信任的测试人员开始或许是有意义的。你觉得呢?

Greg Brockman:这里的正确答案很微妙,它根于技术细节以及面临的诸多因素中。我们需要思考自身和生态系统中其他参与者的模型演进过程。让一小部分人拥有访问权限或许能高杠杆地发现并生成补丁,但随后该如何在整个行业内协调披露这些信息?

我认为走向任何一个极端都不太准确,需要根据特定情况应用合适的工具。这已不是我们第一次,也不会是最后一次思考这个问题。值得注意的是,我们的模型已交由防御方使用了一段时间,并且一直在建立受信任访问计划。我们发布的模型内置了多项安全防护措施,实际上不允许用于网络攻击。

简而言之,这反映了价值观流派的差异。你究竟是希望将模型交到人们手中并赋予他们力量,还是希望对其进行中心化控制、避免落入大众之手?这可能是辩论中潜在的紧张点。任何反射性的极端策略都不会为世界带来最好的结果。

5. 如何信任智能体

Alex:好的,我想转而谈谈关于智能体的问题。如果在某种程度上给予智能体高度的自主权,它们的工作效果是最好的。这在某种程度上说得通。但我很好奇,随着未来智能体能执行更多任务、访问更多文件并跨程序工作,目前对它们给予多大程度的信任才算合适?

Greg Brockman:目前的智能体实际上已经趋于相当可靠。尽管包括提示词注入在内的问题依然存在漏洞,但我们正在积极修补,模型也正变得更具韧性。

随着模型被赋予更多责任和重要上下文的访问权限,这就如同管理员工一样。拥有五个值得信赖的员工不成问题,但如果有五万名员工,你就必须考虑如何实现良好的治理与监管。当这款超级应用变得对任何使用电脑工作的人都更加易用时,我们也在治理和监督方面加大了投入。例如在我们最近发布的 Workspace Agents 中,企业可以在云端定义智能体并获得一个托管的 CodeEx 安全沙箱,将其接入 Slack 执行工作。看到它在组织内部病毒式传播非常酷。当你看到别人的智能体时,你可以直接复制它来创建自己的版本。这为实现卓越治理提供了契机,IT 部门可以查看所有已创建的智能体及其对话,从而精确设定护栏 ( guard rails ) 。你需要逐步提升赋予智能体的责任以及它们协作完成任务的多样性,同时兼顾安全性、可靠性、可观测性和监管能力。如果不将这些环节紧密结合,状态就会失衡。

Alex:是的,基本上就是放手去做,但要保持谨慎。

Greg Brockman:但你也必须真正全身心投入。随着规模的扩大,原型设计和规模化的本质会让你思考是否依然有能力进行监督并了解全局。所以需要确保在每一步都调整好状态,并充分了解团队的动向。

6. 算力经济的未来

Alex:Greg,让我们以此作为结尾。你提到了计算驱动型经济,这具体意味着什么?

Greg Brockman:我们正走向这样一个世界:投入的算力越多,问题被解决的速度就越快,解决问题的上限取决于可用算力的多少。以药物研发为例,攻克阿尔茨海默症等复杂疾病目前超出了人类的能力范围。但想象一下,你可以利用一个吉瓦级的数据中心,花几个月甚至一年时间专门思考如何攻克它。它不仅在大脑层面思考,还会咨询世界级专家,甚至建议进行湿实验室 ( wet lab ) 实验。这无疑将对人类产生深远且积极的变革性影响。

日常生活中的任务同样可以通过这种方式解决。你口袋里的智能手机会化身为一个了解你、值得信赖的智能体,它拥有你的个人资料上下文,你可以向它寻求健康建议并获得可靠信息。你可以直接与它交谈,它会主动了解你的目标和兴趣并为你提供帮助。无论规模大小,算力都将成为核心资源,它展示了计算机能在多大程度上代表人类完成工作。这是我们所有人正在共同构建的未来。

Alex:是的,我想这也解释了为什么你会领导这些巨额的基础设施投资和博弈。

Greg Brockman:这依然不够,我们将切身感受到资源的稀缺。现在那些尝试使用智能体的人已经因为触及速率限制而感受到了这一点。我们正代表所有致力于此领域和想要使用智能体的公司开展工作,尽最大努力确保提供充足资源。我们正走向一个计算资源稀缺的世界,在努力提高资源可用性方面,我们所有人都可以贡献一份力量。

Alex:Greg,感谢你在百忙之中抽出时间,很高兴能和你交谈。再次感谢你的到来。

Greg Brockman:同样,聊得很愉快。

相关阅读

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容