关于ZAKER 合作
钛媒体 13小时前

OpenAI 杀入通用 AI Agent 背后:四大技术流派与下一个万亿流量之战

文 | 硅谷 101

7 月 17 日,OpenAI 正式发布 ChatGPT Agent,正式进军通用 AI Agent 赛道。

外界猜测,在 GPT-5 即将发布的关键节点,ChatGPT Agent 的亮相更像是仓促应战的 " 占位 " 之举——通用 Agent 很可能成为下一代互联网的 " 万亿流量入口 ",让市场格局再次洗牌。

在通用 AI Agent 赛道中,已经有不少 AI 初创公司崭露头角,技术路线各有千秋:从浏览器为主的万能路线,到沙盒虚拟机的高效执行,再到工作流集成的专业化方案,几大技术流派正在激烈角逐。

本篇文章,硅谷 101 和 Pokee.ai 创始人、前 MetaAI 应用强化学习团队负责人朱哲清(Bill Zhu),以及硅谷 101 特约研究员 Nathan Wang 一起聊聊:OpenAI 入局,是否意味着 Agent 成为又一个被巨头吞噬的市场?还是说,技术壁垒和差异化路线将为创业公司保留生存空间?当 " 幽灵光标 " 成为互联网访问的主力军时,广告生态将如何被颠覆? 新时代的流量入口霸主又将花落谁家?

01 ChatGPT Agent 亮相,通用 Agent 战局全面开幕

7 月 17 日,OpenAI CEO Sam Altman 和四位研究员在直播中介绍了 OpenAI ChatGPT Agent。

简单来说,你可以让 Agent 帮你完成任务:比如,婚礼缺双鞋,去电商平台直接订购;或者设计个宠物周边,直接下单打印;查找信息,之后直接生成 PPT 等等。

这些任务的 demo(演示),看起来完成度都还挺高。它们由 OpenAI 此前推出的两个工具驱动:Deep Research 和 Operator。

Deep Research 是一款深入研究的分析工具,可以阅读大量网页,生成深度的调研报告,主打 " 搜索 ";而 Operator 之前是一款只开放给 GPT Pro 用户的浏览器 Agent 工具,可以查看网页,同时为用户带来特定操作,主打 " 执行 "。

OpenAI 就表示,在两样工具分别推出的过程中,发现很多用户用 Operator 写的提示词经常很像会用 Deep Research 去做的任务,比如旅行计划,行程预定等;而 Deep Research 那边,用户们也在呼吁能增加比如登陆不同网站、去访问受保护资源的能力,这恰好又是 Operator 擅长的。

所以 OpenAI 就决定将两个产品融合起来,相当于打通了 " 搜索与执行 ",也就是通用 Agent 所需要的技能。

同时,这也决定了 OpenAI 做通用 AI 的底层路线,是和目前市面上其它的产品有所区别的,存在优势和弊端。

接下来,我们就来聊聊目前通用 Agent 的四大技术派系。

02 浏览器为主派(OpenAI),操作万能但速度受限

第一个技术派系就是所谓 "browser-based"(浏览器为主)的技术路线,之前 OpenAI 的 Operator 就专注于这个路线。

这类智能体主要通过控制网页浏览器来工作。简单说,就是通过视觉模型让 AI 像人一样去网上搜索信息、点击链接、浏览网页,从而完成用户交代的任务

这种模式因为可以访问全网信息,通用性很强,几乎是无所不能的。

Bill Zhu(朱哲清)

Pokee.ai 创始人

前 Meta AI 应用强化学习团队负责人:

我认为浏览器(Browser)的意义在于,世界上所有的网页和互联网服务,都可以集中呈现在某个页面,所以我只需要我的 Agent 能够看到网页、去操作网页,我就可以完成我的任务。用户可以看到这个基于浏览器的 Agent 在页面上点了哪些地方,一页一页地去看浏览器是不是跟人一样在操作网页。

它的缺点是很慢,而且 Token 消耗特别高,原因在于你去看一个网页,等于把 HTML 的文件直接拉下来,可能还包含一些脚本(script),然后把它全部拉下来,从零开始全部读一遍,只为了操作一个网页。但是它确实是万能的。

就像朱哲清说的,这个万能的路线有一个致命问题:慢

原因很简单:浏览器为主的路线,背后的技术是 Agent 配合视觉模型来做 Screencatch(屏幕截图),进而来进行图像识别,所以它注定要主页加载网页、等待响应。

这次我们也看到," 速度慢 " 是不少人对这次 ChatGPT Agent 的一个不满之处,很多任务都要耗费几十分钟来完成。

因为 Deep Research 相对于市面上所有的产品来说,它还是相对比较慢的一个 Research 产品,再加上 Operator(操作者)本身,我们也知道它的 Benchmark(基准测试)上面它速度也很慢,所以它把两者结合了以后,整体速率就更慢了。

但这个 " 慢 " 可能也会因为大模型的优化和算力的优化,而在未来实现速度提升。

OpenAI 的视觉模型和 browser 点击能力比市面上其它通用 Agent 更强,所以这个技术派系在之后还会有很大的优化空间。

03 虚拟机 + 浏览器派(Manus),本地执行效率高但外部访问受限

在 Agent 相关的报道和技术分析中,"Sandbox" 一词会经常出现,它翻译过来叫做 " 沙盒虚拟机 "(隔离的计算环境,用于安全地运行程序)。

想象一个小朋友在家里玩泥巴。如果 ta 到处跑,可能把泥巴弄得到处都是,还可能打翻家具,甚至弄伤自己,这简直就是家长的噩梦。

但如果你准备了一个 " 沙盒 " ——一个有边界、专门让 ta 玩泥巴的地方—— ta 在里面怎么玩都可以,又安全又干净。

简单来说,在 AI Agent 的应用中," 沙盒 " 就是一个被限制和隔离的环境,被称之为 " 虚拟机 ",让程序在里面运行,而不会对主系统造成风险。

AI 能在这台虚拟电脑里随意打开浏览器上网、运行代码脚本、读取和保存文件等,相当于 AI 拿到了一个隔离的电脑,像人类一样拆解任务,在虚拟机里上网、编程,完成所有步骤。

而因为是真正的计算机环境,AI 可以执行非常复杂的操作流程,从网上获取信息到本地计算处理,一条龙自主完成。

Nathan Wang

硅谷 101 特约研究员

AI Agent 开发者:

其实虚拟机在做的一个事情,就相当于在一个虚拟搭建的环境中,基于 Linux 系统通过命令行操作生成各种文件。

所以,虚拟机背后给我感觉更多是调用大模型的编程能力,根据用户需求生成相应代码。只要你有一些编译器或者一些库,它可以把整个程序给渲染输出,最终以网页、PPT 等用户易于理解和使用的内容形式呈现,从而实现完成用户请求的目的。

虚拟机环境的好处就在于它可以运行任何的线下的,就是 open source ( 开源)那种 package(程序包),但它的缺点就在于它很多情况下无法访问互联网,特别是那种需要全授权身份验证的产品,比如说你要去登录你的 Facebook,这些东西它都是肯定做不到的。

所以" 虚拟机 " 为主的路线优点就是本地执行效率高,但因为 sandbox 对外部服务的访问有限制,所以与现实世界交互还不够灵活

" 虚拟机 " 为主的通用 Agent 中做得很好的,是 Manus。公司在今年四月融资 7500 万美元,估值近五亿美元。

但 Manus 并不是只有沙盒,它结合了我们刚才提及的基于浏览器 browser 的技术流,只是将沙盒做了进一步优化。

Manus 的体验是,它尽可能用一个 Sandbox(沙盒)加上 Browser(浏览器)的环境,来搭建一个几乎让人觉得万能的环境。

与此同时,Manus 的一个缺陷是被浏览器的能力所限制住了。比如,你要去真的发个帖,它做不到,因为它对于整个页面的导航,说我要去选择那个小的按钮,选择完之后去上传一个图片、生成一个视频等,这很难;你要把谷歌表格里的某个单元格改成某种格式,也比较难,因为注意力的空间太小了,浏览器是它的一个主要限制。

第二个缺陷是它很慢,这是 Manus 和 ChatGPT Agent 的一个通病,因为用了浏览器,所以它的速度会非常慢—— 30 多分钟做一个任务。

可能它的总体优势可能在于,它 Sandbox 的环境搭得可能比 ChatGPT 更好一些。我还不太清楚 ChatGPT 里面的虚拟机能做到什么程度,但我猜应该 Manus 在虚拟机里面已经花了很多精力去部署,应该会有一个比较小的优势。

04 大模型 + 虚拟机派(GensPark),牺牲通用性换取速度与稳定性

第三种路线强调大语言模型(LLM,Large Language Model)本身结合一个 " 沙盒 ",也就是封闭工具环境来完成任务。

和第二种路线对比来说,与其给 AI 整个开放电脑,不如给它一套有限但有效的工具箱和一个小型运行环境。

第三种,是大模型加沙盒放一块的 Agent,它可能是限制一个大环境。Genspark 是一个这样的例子,它并不给你完整的一个沙盒,连浏览器都没有。Genspark 有一个大模型作为主体的推理过程,它写代码也完全靠这个大模型;有一个沙盒去运行一些代码、生成一些东西,然后再把它渲染出来。它是 fully control(完全控制的)——这个环境内部无法说 " 现在去下载一个开源的 package(程序包)"" 现在需要临时去修改一张图片 " 等任务。如果在它原始的程序包设计里面没有,它自己不会下载一个程序包,去做这件事。

所以 Genspark 这种设计是,比如说像那种幻灯片 Agent、表格 Agent,它们在设计的时候把可用的程序包给限制住,不再让用户去用更多的程序包,是一个相对比较封闭的环境和工作流程——在限制环境下用一个大模型做主体写代码,同时用一个小的环境去执行。

这里朱哲清提到的一个典型公司就是 GenSpark,这家公司目前是在 A 轮,估值 5.3 亿美元,刚在 2 月份融资 1 亿美元。

GensPark 集成了多种不同规模的语言模型,以及 80 多个预先构建和测试好的工具。

当有任务时,系统会根据需求调用合适的模型来理解,并直接用相应的 API(应用程序编程接口)或内置工具去处理,比如搜索信息、调用地图服务、查询数据库等,而不依赖模拟完整浏览器或操作系统。大语言模型更像大脑中枢,在相对封闭的环境里调度现成能力,快速产出结果。

GensPark 给我的印象比较突出的就是,它会接很多第三方的工具,或者是各种 API。比如说它其实很多时候它会说,你只要把你 LinkedIn 的访问权限给到我,我可以通过这个 large language model(大语言模型)直接登录你 LinkedIn 的账户,帮你去生成一个 LinkedIn 的帖子。

如果用户授权其访问用于代码 version control(版本管理)的 GitHub 账户,它可以直接在 GitHub 去看你写的程序,改你写的程序,并执行一系列相关任务。此外,它与 Google 系列产品(如 Google Sheets、Google Slides)也能实现无缝对接,把各式各样 workflow(工作流)都帮你设计好,把你所需要的工具、所需要的接口都帮你放在那。

GenSpark 可能相当于,把这些工作的工作流任务细分到每一个场景中去,具体到某个场景的时候,我再去用这一系列的工作流。这个设计,我去做这件事情肯定是更可靠的,因为我已经限定了我的问题是什么。

总结一下,以 GensPark 为代表的大语言模型 + 虚拟机(LLM+Sandbox)技术流相当于标准化工作流,设立了更封闭的环节,牺牲通用性去换取速度和稳定性,来让一部分的任务更快、更靠谱。

05 工作流 + 工具集成派(Pokee/UiPath),速度快、交付好但通用性差

第四种路线,本质上是把预先设计好的流程和第三方工具集成结合 AI 使用。比如朱哲清所创办的 Pokee,所用的技术路线叫做 " 工作流 + 工具集成 "。

可以把它想象成搭积木:开发者先把完成某类任务需要的步骤都规划成一个个节点,也就是工作流(Workflow),每个节点可以调用不同的应用或 API(工具集成)。

AI 的作用是在运行时根据用户请求,自动选择并执行这些预设的流程,或用自然语言帮你填充参数。

举个例子,Zapier(自动化工作流平台)平台上用户可以设置一个自动化流程:一旦收到新的表单,就让 AI 读取内容整理摘要,通过 Gmail 发送给相关人员。

这里 AI 负责理解内容和写邮件,但从触发表单到发送邮件的步骤是事先定好的。类似地,Pokee AI 强调通过强化学习来自动规划和调用工具。

这样的技术路线优点是速度快,交付好,但也被限制在特定任务中,通用性差一些。

我们最后会有自己的 deep research Agent(深度研究智能体),加上我们的 execution Agent(执行智能体)放在一块,总体体验会有大幅提升。但是总体速度应该是市面上所有产品的 4-10 倍左右。

能够实现这一优势的原因在于,我们不再需要使用复杂的虚拟机环境,也无需依赖复杂的 tool calling(工具调用机制)。我们直接使用第三方集成的 SDK 和工具,通过自研的工具调用基础模型来调用这些功能的话,整个速度是会大幅度提升的。我们避免了像 MCP 以及市面上其他产品在工具调用中存在的上下文冗长的问题。

因此每次工具调用的成本可以削减百分之五六十。结合我们自主研发的上下文工程技术(engineering),使得整体成本与 OpenAI 的 ChatGPT Agent 和 Manus 相比有数量级的差异;与垂直化的 GenSpark 相比,也有几倍的优势。在 token 使用方面,我们确实存在劣势,特别是与基于浏览器(Browser-based)的 Agent 相比,我们并不是完全万能的。

这样的优势在于,能够保证每个服务的交付质量非常可靠。因为我们使用的是第三方服务(如 Facebook)直接提供的访问权限,不会出现错误。同时这也带来了限制,就是它无法实现所有功能。

结合以上的四种技术流派和对应的代表公司:浏览器为主,做得最好的是 OpenAI 的 ChatGPT Agent,Sandbox(虚拟机)做得最好的是 Manus,LLM+Sandbox(大语言模型 + 虚拟机),代表公司是 GensPark,最后是工作流加工具集成,如 Pokee、Zapier、UiPath。

可以看出,目前 " 通用性 " 和 " 速度及稳定性 " 是鱼与熊掌不可兼得,必须要牺牲一个。ChatGPT Agent 和 Manus 选择了前者,而 GensPark 和 Pokee 选择了后者。

大家一开始都是想去做通用 Agent。但是到最后大家体验完发现,什么都想做,就什么都做不精。这时,产品的迭代又会转到另一个方向:怎么提高它的可靠性、工作流,或者把场景变得更加专精?这可能是当下探索的一个更加实际的方向。

第二个问题是,我怎么能够把我吸引的用户不断地留存下来、去持续付费?第二件事就是,需要靠像类似工作流增加应用场景,让每个应用场景变得更加可靠的模式,才能把用户留住,而不只是说一上来给大家一个非常惊艳的 demo(演示),或者一个 MVP(最小可行性产品),让大家觉得通用 AI Agent 已经来临了,但持续去使用的时候又发现不是。如果真正达不到用户要求,很多人可能就会退订、离开平台。

所以现在,更多的通用 Agent 公司是在解决 " 怎么能够把用户留住 "。工作流加上更多工具,专攻应用场景是一个非常好的路径。

06 幽灵光标,Agent 将打响未来流量入口之战

无论是什么技术路线,要想真正让大家用起来,提高可靠性和留存率,加快交互速度是接下来通用 Agent 的共识方向

我们可能会看到更加细分的 Agent,以及万能通用 Agent 的百花齐放,包括 ToB 和 ToC 的产品也会不同。

所以,虽然 OpenAI 入局通用 Agent 赛道,但这场仗看起来还有得打。但同时,这也给我们指明了一个未来的发展共识,就是:Agent 们,不管是通用的还是专用的,将代替人类,成为访问互联网的主力军。

Wired 杂志在 7 月底就发布了篇文章说,以后的互联网充斥的都将是所谓的 "ghost clicks"(幽灵光标),都是 Agent 们在与网页交互,抓取信息。这可能意味着一个巨大的变革和机会。

也就是说," 流量 " 这个词将变得毫无意义,因为都不是真人在点击网页了,而未来的流量入口将成为 Agent,而这个赛道也将是下一场巨头之战的中心。

当然,也不排除会有新的公司占据这个巨头的位置。而这个变化可能会来得比我们想象中更快。

无法避免的是,我认为在接下来一到两年,大多数门户网站的流量都将快速下降,无论是电子商务、搜索引擎、视频网站还是其他各类门户网站,它们的流量入口都将变成各个方向的 Agent。这正是 Google 推出 Agent2Agent ( A2A ) 协议的原因。每家公司都可能拥有自己的 Agent,实现 Agent 之间的交互。如果 Google 能够占据这个协议,并在 Gemini 中率先部署,它就将成为最大的赢家,因为它成为了 Agent 入口。ChatGPT 和 Claude 也是一样,它们推出协议的核心目的也是要占据智能体入口的战略地位。

而顺着这个新范式,我们可以期待,未来的广告模式和信息模式都会发生颠覆性的变化。

比如说硅谷 101 的播客,现在大家都是免费听的。通过 YouTube 广告分成获得收益。但在未来,获取播客内容本身的知识产权就将具有价值。

每当 Agent 通过调用或网页访问获取播客信息时,都需要向内容创作者付费。创作者不再需要承担广告流量的责任,广告将由 Agent 完成。Agent 在获得信息后,会在工作流或者用户体验中插入广告。当 Agent 向用户提供对比选择时,会询问用户想要尝试哪个 Agent,此时就形成了排名机制。由于这些问题没有标准答案,它这个时候推荐哪个 Agent 让用户去试试,它就可以向那个 Agent 的公司去收钱了,广告收入就在这个环节产生。

而支持每个 API、每个第三方的插件的产品本身,以及知识产权本身,都可以直接收费。因此,对于创作者生态和 SaaS 生态而言,从某种意义上来说这种变化是积极的。创作者不再需要在 Google 投放广告,也无需免费将内容提供给 YouTube 进行广告投放,而是有一个 Agent 直接向你付费,它通过自己的广告机制覆盖成本。我认为创作者不会受到很大冲击。

很开心听到嘉宾说,作为内容生产者,当我们的观众不再是真人,变成了所谓的 " 幽灵光标 "Agent 们,但我们的内容还是极具价值的,并且这样的商业模式是更友好的。

但感觉还有挺多技术限制需要去突破,以及很多的协议要达成共识。

Sam Altman

OpenAI 联合创始人、CEO:

虽然这(AI Agent)是一项极其令人兴奋的新技术,但它也带来了新的风险。人们已经大致学会了如何相对安全地使用互联网,尽管当然仍然有诈骗和其他攻击行为存在,而未来人们同样需要学习如何使用 AI Agents。社会也需要建立针对 AI Agents 攻击的防御机制。所以我们是从一个非常稳健的系统开始的,并设置了大量警示机制。随着用户逐渐适应,我们将逐步放宽限制。但我们确实希望人们将其视为一项新技术、一个新的风险面,并采取所有必要的谨慎措施。话虽如此,我们还是希望你会喜欢它。

而就在 ChatGPT Agent 发布的同一天,OpenAI 公布了一个数据:目前 ChatGPT 每天收到的用户指令高达 25 亿条。

这是什么概念呢?相当于年化 9125 亿次。如果把每一次提问指令都等同成一次搜索,ChatGPT 已经占据谷歌年搜索量的 18%。

而这个数字,随着 AI Agent 的成熟落地,很可能会继续快速增长。而新的流量入口之战,已经打响。

相关标签

相关阅读

最新评论

没有更多评论了