文 | 大模型之家
北京时间 7 月 18 日凌晨,OpenAI 如约发布了其最新力作—— ChatGPT Agent。
根据 CEO Sam Altman 和四位 OpenAI 研究员介绍,ChatGPT Agent 是一个具备自主执行复杂任务能力的 AI Agent,它不再仅仅 " 对话 ",而是可以打开虚拟机,完成搜索、筛选、判断、执行等一整套流程,最终输出可交付的结果。
ChatGPT Agent 的定位非常 " 简单直接 ":一个拥有终端、图形浏览器、文本浏览器的多工具整合智能体系统。功能上,几乎等于一个受控的远程虚拟操作系统。
值得注意的是,ChatGPT Agent 可以说是 OpenAI 自今年以来推出产品的一次阶段性整合与释放:Operator 和 Deep Research,一个偏执行,一个偏思考,如今彻底融合。
AI 真正开始 " 动手 ":ChatGPT Agent 的能力边界
与如今大火的 " 智能体 " 赛道的产品类似,ChatGPT Agent 的最大变化,是让 AI 真正获得了对数字世界的 " 动手 " 能力。Agent 模式下,用户不再是通过提示词一步步引导 ChatGPT 生成答案,而是描述一个需求后,模型启动虚拟机,自主规划任务、调度工具、完成执行。
在演示中,OpenAI 展现了其三大基础能力组件:文本浏览器、可视化浏览器和终端。
这些能力让 Agent 不仅适用于内容生成,更适用于事务型任务处理,意味着它从 " 信息辅助 " 跨越到 " 决策 + 执行 "。在办公场景中,Agent 可以完成会议安排、报告撰写、差旅预订等一系列中层管理事务。在生活场景中,它能规划婚礼、生成资料、预约专家等个性化需求。用一个略显理想主义但已逐步接近现实的说法:ChatGPT Agent,是人人都可以拥有的 " 高效执行助理 "。
基准测试成绩:Agent 能力更接近人类水平
与以往 OpenAI 擅长的语言能力不同,Agent 的测试指标更偏向执行能力和任务完成度。在这方面,ChatGPT Agent 通过了多个广受认可的专业评测,其结果呈现出一次系统性的跃迁。
尤其值得一提的是 DSBench 测试,它用于衡量数据分析与建模任务的能力。Agent 在这一测试中超过了所有此前的 SOTA(state-of-the-art)模型,明确表明其在面对现实数据分析任务中,不仅可用,而且强大。
这些数字背后,是 OpenAI 在工具调度、任务分解、推理执行上的系统性优化。可以说,ChatGPT Agent 已不再局限于 " 语言智能 ",而是进入 " 操作智能 " 的新阶段。
Operator 和 Deep Research 子产品的融合
在大模型之家看来,ChatGPT Agent 并不是从零起步的 " 创新 ":其核心其实是 Operator 和 Deep Research 两个子产品的融合。
Operator 是今年初推出的图形界面 Agent 工具,支持鼠标模拟点击、滚动等界面操作;Deep Research 则是一个偏内容分析和信息整合的工具,擅长处理复杂文字材料并输出结构化结果。两者原本分别服务不同需求,但用户使用行为暴露出两者之间的边界并不清晰。
许多 Operator 用户在提示词中描述的任务,其实更像是深度调研;而 Deep Research 的高阶用户,又频繁表达对图形交互的诉求。
这使 OpenAI 做出顺理成章的决策:合并两个工具,并在一个统一的模型训练框架下,用强化学习方法教会模型如何调度工具。具体方法是模型从 " 笨拙地 " 乱用工具开始,通过奖励高效行为逐渐掌握何时使用哪个工具、在哪一步执行操作。
这个过程类似于 AI 界所熟知的 Curriculum Learning(课程学习)策略,从简入繁,在逐步暴露复杂问题之前先引导其掌握基础逻辑。强化学习在这里的作用不仅仅是让模型 " 能用 " 工具,而是 " 用得巧 ",用得灵活。
这种组合式的工程化思维并不新鲜,但放在 OpenAI 此时此刻的体系中,它是一种极高效的资源整合,既降低开发风险,又释放实际能力,是对 "AI 工具生态 " 合理性的回应。
Agent 不是终点,而是通往应用未来的桥梁
ChatGPT Agent 的诞生,不只是对工具融合的一次技术实现,更是对 " 大模型如何走进现实 " 的阶段性回答。从 ChatGPT 的出现开始,逐渐理解语言模型的强大;从 GPT-4o 开始看见多模态推理的边界;而现在,Agent 将 " 思考 " 与 " 动手 " 统一,标志着 AI 真正有可能完成从 " 助手 " 向 " 代理人 " 角色的转变。
从开放的任务执行结构来看,Agent 模式更像是未来操作系统的一种雏形:具备动态调度资源、主动规划流程、与人类深度交互的能力。它并不重定义 AI 模型本身,而是重塑了人与 AI 协作的界面与方法。
OpenAI 将这套能力下放到 Plus、Team 乃至企业级服务中,也意味着 Agent 从不再是 " 高级用户 " 的特权,同时借助 Agent 热潮吸引更多用户,扩大自己在大模型赛道的话语权。
未来,ChatGPT Agent 是否能像操作系统那样拥有开放插件生态?Agent 是否能承接 SaaS 级别复杂度的任务?企业的专属工作流是否可以嵌入 Agent?这些问题都已开始具象化地浮出水面。