关于ZAKER 合作
雷锋网 1小时前

Pokee.ai 朱哲清:用 RL 搭建智能体的「骨骼与神经」

在 Pokee.ai 内测之前,我们就先感受了一把这款 Agent 的能力。

" 你发给我一个邮件就行,我的 Agent 能自动生成日程表。" 在跟朱哲清约电话会议的时候,微信那头的这个人如是说。

他是知乎和小红书的双料活跃用户,同时也是强化学习界冉冉升起的新星。他和团队 2023 年 12 月份就发布了开源强化学习框架 Pearl,上线首日即在 Github 上收获了 540 star,目前更是升至 2.8k。

2016 年,AlphaGo 击败李世石的那个晚上,还是少年的朱哲清捧着手机,静静坐在杜克大学教堂前,意识到 AI 已经走向了真实世界。他开始接触强化学习(RL),从此就成为了 RL 的忠实信徒,即使在这一技术路线陷入最低谷时也从未想过放弃。

后来他在 Meta 带领边缘化的 RL 团队逆势突围,将强化学习真正部署在广告竞价、推荐系统和自动内容生成等核心业务中,每年为公司创造数亿美元的增益。

在 Meta 升职到 E7 后,朱哲清还是无法忘记他长期思考的本质问题:这在面对那么多不同类型的问题时,有没有一种 RL 路径,可以做到真正通用的智能体?怀揣着这个问题,在半年多前结束了他 7 年半的 Meta 生涯,成为了一名 AI Agent 创业者。

创业并不容易,在我们的聊天中,他承认自己创业这半年来完全没有休息过,团队 4 个人,搞定了模型架构、自动化、训练、部署,再到 infra、产品等所有工作,这才在 4 月份的最后两天推出了这款内测版本的 Pokee.ai。

借此机会,《AI 产品十人谈》系列选择对话朱哲清,详细探讨了他对强化学习与 Agent 的思考、探索与实践。谈到创业,这位一项冷静的强化学习研究者也忍不住激动起来,毕竟一切正如他在知乎上所写下的:

这波 AGI 的浪潮真的很大,亲自踏浪才不会后悔。

以下是 AI 科技评论与朱哲清的对话实录,作者进行了不改原意的编辑整理:

一个坚定的 RL 信仰者与他的 ASI 野心

AI 科技评论:从你的学术背景和工作经历来看,你一直在做强化学习相关的研究和实践。你是从什么时候开始接触强化学习的?

朱哲清:我接触强化学习非常早,大概是在 2016 年,本科二年级的时候。当时我开始学习和研究一些 RL 相关的内容,尤其是偏 Planning 方向的东西。

李世石和 AlphaGo 对战的比赛对我影响非常深。当时我正在上关于强化学习的 AI 课程,AlphaGo 比赛之后,这门课突然爆满。可以说,那是 RL 第一次在大众层面迎来真正的高光时刻,AI 第一次在围棋上战胜人类,彻底改变了人们对人工智能的看法。随后几年里,围绕 AlphaStar 在星际争霸等复杂游戏中的突破,让更多人关注起 RL。但很快我也亲历了这个领域的 " 冷却期 "。

当我正式进入工作后,发现强化学习的热度开始逐渐回落,甚至可以说是急转直下。原因其实很现实,RL 始终难以脱离 " 游戏环境 "。它的训练强依赖环境的构建和反馈机制,而这些在真实世界中是很难完整设定的。比如围棋、电子游戏都有明确定义的规则和反馈路径:你下什么棋会导致什么后果,系统可以清晰反馈。

但现实世界的任务场景,比如搜索排序、内容推荐、或者安卓平台上的用户行为建模,它们的反馈往往不是人为规定好的。这就意味着我们很难构建出一个训练环境去承接 RL 的策略优化过程。包括 Alphago 项目的核心成员 David Silver 在那之后也一直尝试把这些技术迁移到真实世界中,但最终仍不得不退回到更明确反馈机制的任务,比如数学证明之类。

所以,在 AlphaGo 之后虽然曾有一波 RL 热潮,但由于真实落地太难,这波热度很快就降温了。真正把 RL 带回大家视野的,其实是 RLHF 的兴起。从 2017 年、2018 年开始,直到 2022 年之前,RL 基本处于一个低谷期。在这段时间里,大多数研究者其实都远离了这个方向。彼时的行业主流观点认为,Transformer 已经能解决一切,算法不再重要,数据和大模型参数才是关键,RL 似乎已经 " 过时 " 了。

但是我没有放弃,一直坚定地认为 RL 仍有价值,关键是找到它真正适合的落地路径。在 Meta 工作的那几年,我见证了整个 RL 团队从高峰走向边缘。当时 Meta 的 RL 团队从二十几人一路缩减到三个人,公司甚至打算把这个团队解散。我在那个时间点主动请缨," 把这个团队交给我试试。如果我做不好,你怎么处理我都可以。但如果我带得起来,希望你给我继续发展的空间。"

就这样,我从三个人开始,一点一点把团队重新带起来,最后回到了十几人的规模。可以说,我完整经历了整个 RL 从爆发、低谷、再到新一轮复苏的全过程。而我们的 " 复苏 " 甚至比 RLHF 那一波重新火起来还要早一些。

AI 科技评论:你坚信 RL 的理由是什么呢?

朱哲清:核心原因其实很简单。我的判断是,单靠 " 预测 " 并不足以完成复杂任务。我举一个例子:

比如你要做一个关于 " 人工智能与强化学习关系 " 的专题报道,要写三四篇文章。你有两种方式来展开这个任务。

第一种是 " 走到哪算哪 " 的思路:你不设定清晰的最终目标,只是每写一篇就基于当前内容预测下一篇,比如第一篇写强化学习的概念,第二篇自然而然谈应用,第三篇再讲现实中的实例……路径是发散的,没有明确终点。

第二种则是 " 目标驱动式 " 的思考:你的明确目标是让读者理解强化学习在人工智能中的重要性。基于这个目标,你会倒推:首先列举一些强化学习的应用案例,比如 AlphaGo、AlphaStar,再进一步引申到现实场景中的价值,最后讨论强化学习相对于其他算法的独特优势。

这两种思维路径本质上完全不同。而后者——以目标为导向、倒推任务路径,才是人类解决复杂问题时的典型模式。你不可能靠 " 走到哪算哪 " 的随机推进,来系统地完成一个复杂的项目。

强化学习的本质优势就在这里:它的思维结构(thinking structure)是围绕 " 目标驱动 " 的。只有围绕明确目标,不断调整策略、规划路径,才能真正攻克复杂问题。

所以当时我就认定,即使未来模型变得再大、训练数据再多,如果它们没有明确的目标驱动、没有基于奖励机制去主动规划和执行的能力,就永远无法真正完成复杂任务。这就是我当年坚持 RL 的底层逻辑。

AI 科技评论:所以你在 Meta 证明了你对 RL 的坚持是正确的?

朱哲清:我接手之前,RL 团队同时对接多个项目,只做咨询式的工作,成果非常少,地位也很边缘化。我接手之后做了一个非常果断的决定:只保留一个项目,集中所有资源,把这个项目做到真正有说服力、有价值、有成果。结果就是,我们给公司带来了每年 5 亿美元以上收入潜力的应用点。

AI 科技评论:你觉得你做对了什么?

朱哲清:这背后其实有一个前提,就是你自己必须对 RL 有非常深刻的认知,不仅要懂算法,还要能够真正落地到复杂的、真实的应用场景中。

我们确实看到了很多 RL 算法逐渐出现通用性的迹象,但离真正的一以贯之的通用 RL 框架,还差很远。我们想要追寻的是,打造一种能够从头到尾用 RL 逻辑贯穿的通用 Agent。不管面对什么任务、什么问题,只要把任务丢给 Agent,它就能自主规划、自主解决。

这其中更本质的问题就是:在面对那么多不同类型的问题时,有没有一种 RL 路径,是可以做到真正通用的?这是我在 2024 年 10 月离开 Meta 之前,我们团队一直在探索的核心议题。

AI 科技评论:其实你一直都在寻找一种真正底层通用、能够大范围解决问题的 RL 框架?

朱哲清:因为 RL 本身有很多天然的限制,比如线下学习的问题,你可以从数据集中学到一定的东西,但线下数据和真实环境差异巨大。并且线下学到的策略如何安全且高效地应用到线上?两者差异怎么修正?线上运行后,如何持续收集新数据,不断训练优化,且避免性能退化?

所有这些问题,如果每次都靠单独的 trick 和特殊设定去解决,就永远不可能有真正通用的 RL 方法。所以我们想要的是一整套统一的结构性解决方案。从我的角度看,RL 其实是一个被严重低估、也被低度开发的方向,目前它大多数时间仍处在一个 " 辅助工具 " 的角色。

无论是 OpenAI 的 RLHF,还是 DeepMind 推出的一些模型,它们大多数都是在已有的预训练模型基础上进行增强,比如,我已经有一个不错的大模型,然后通过 RLHF 这种方式,让它在某个维度上 " 更好 ",比如提高用户满意度、优化输出表现等等。所以目前的 RL 更多是一种 " 增强器 ",不是主角。

AI 科技评论:你是觉得它还没有成为 " 主导智能 " 的那部分技术。

朱哲清:从我个人理解来看,现在这波 AI,已经可以说达到了 " 近人类级别智能 "(human-level intelligence)的 80%~90%。虽然 AGI(通用人工智能)这个概念非常模糊,但我们可以先不去定义它。那下一步呢?很多人谈的是 " Superhuman Intelligence"(超人类智能)。如果真要往这个方向走,我认为强化学习是绕不开的路径。

因为大型语言模型最擅长的是知识回忆和模仿,它能提出建议、生成文本,但它缺乏 " 结构化解决问题 " 的能力,也就是它没有 " 主动性 " 或 " 目标驱动性 "。而 RL 的本质,就是解决目标导向的问题。你不能靠 " 模仿 " 去解决从未见过的复杂任务。你要有策略、目标、反馈机制,要能在未知环境中自主探索和优化。这才是真正的智能。

而且我个人觉得,现在很多程序员、算法工程师的基础工作,包括模型微调、推理部署,这些事情很快都会被 AI 自动化工具所替代。甚至连预期管理、内容生成类工作,也都会被 " 会表达、会规划 " 的 AI 接管。这意味着,下一代智能突破口的研发,是最值得花时间的事。

这也是我为什么选择离开 Meta,去做我现在这家公司。我们现在在做的,不只是工具产品,而是在构建一个 " 能力系统 "。先通过工具 + 规划去接近智能体的标准,然后逐步扩展它的工具库、操作空间和决策深度。目标不是像人一样完成任务,而是超过人类在某些任务中的策略选择和规划能力。

这就是我所理解的 " 通向 Superhuman Intelligence " 的路径。

什么才是下一代的 Agent?

AI 科技评论:谈谈你的这款 AI Agent 产品 Pokee.ai 吧。

朱哲清:Pokee.ai 是一款具备强执行力的通用 AI Agent,它不是停留在 " 生成内容 " 层面的助手,而是一个能真正动手完成复杂任务的智能执行体。你只需要用自然语言下达一个指令,比如 " 生成一组社交媒体内容并发布 ",Pokee.ai 就能在没有任何脚本配置的前提下,自动调用合适的工具,完成从内容创作、图片生成、格式适配到平台发布的全过程。

而且,这种执行力不止于社媒内容,工程团队已经用它来自动生成 Zoom 会议纪要,也能通过一句 " 搭建一个 AI Agent 网站 ",让它自动创建 GitHub 仓库,写出 HTML+JS 页面,并发布到 GitHub Pages,全流程无需开发者手动介入。

除此之外,Pokee.ai 还能在商业场景中提升效率,比如我安排一个团队会议,只需告诉它我要周五开个关于 AI Agent 市场趋势的会议,它就会帮我完成调研、搜图、做幻灯片、安排日程、发送日历邀请,并附上资料链接,原本要我花几个小时做完的准备工作,现在只需几分钟就能搞定。

更关键的是,在我们做过的对比实验中,Pokee.ai 在面对成千上万的工具时依然保持了超过 97% 的执行准确率,而其他基于 LLM 的 Agent 在工具数超过 500 时就会显著下降,几乎不可用。Pokee.ai 的优势在于它的可扩展性和稳定性,不论工具数量如何扩展,它的响应成本几乎不变,这使它成为真正有机会覆盖全网服务的 Agent 架构。

未来,我们也会开放 API 和 SDK,让每个团队、每位开发者都能拥有属于自己的 Pokee Agent,用最自然的方式去指挥最复杂的任务。

AI 科技评论:听起来你现在做的 AI Agent,不只是工程产品,更像是在研究 " 下一代智能体 "。

朱哲清:是的,我们现在团队其实一直是在两条腿走路。一方面是做 " 早期产品 " ——比如用户能体验到的 Agent 系统,它可以帮你规划、执行任务,有清晰的人机交互流程,也可以支持外部的应用落地。这部分要服务好市场,满足用户的期待,不能偏离 " 智能体该有的样子 "。

另一方面,我个人其实把很大一部分精力都投在了 research 上。我们现在的很多核心代码,包括 RL 训练、模型结构设计,其实都是我亲自写的。我大概把时间一半花在技术产品、商业和团队沟通上;另一半全在研究上。

我们现在一直在推进的方向,同时也是团队最重要、我个人最长期关注的目标就是:到底有没有一套通用的 RL 结构,能够横跨多个场景真正做出 " 具身智能体 "?

AI 科技评论:所以你们一开始其实是先做一个技术落地证明,对吧?

朱哲清:对,我们刚开始做 Pokee.ai 的时候,核心目标是先证明这个技术能打硬仗。那时候无论是投资人还是业界大部分人,对 "RL+Agent" 到底意味着什么,其实都还很模糊。甚至连 "Agent" 这个词具体指什么,很多人都搞不清楚。我印象很深,当时和投资人聊时,他们经常会反复问:" 你这个技术方向到底在做什么?"、"Agent 能落地成什么样?"、" 你们怎么打算实现?"

所以我们公司成立的两个月之内,就完成了一个电商场景下的 Agent 系统落地:我们把 SDK、API、GraphQL、Command Line 这些全都接入到了我们的 Agent 系统中,ToB 和 ToC 两侧都可以覆盖。并且这个项目在两个月内就做完了,完成度非常高。对比来看,别人可能要花一年才能做出来的产品,我们在短时间内就做得功能更全、更稳定。这其实已经是很强的技术证明了。

但我们没有止步于此。我们很快意识到,要证明这个 Agent 是真正 " 通用 " 的,仅靠几十上百个工具还远远不够。于是我们很快扩展到了上千、上万个工具级别的调用能力,专门来训练和验证我们的 Agent 是否具备普适性的规划和调度能力。

AI 科技评论:目前你们用的这个模型,是一个什么样的模型?是完全自研的吗?

朱哲清:我们没有使用任何开源机构的模型,所有模型都是完全自主训练的。

我们的架构是这样的:我们有一个小型语言模型作为人机交互界面,相当于是我们的 " UI 层 ",用于理解用户指令和上下文。但真正的 " 决策逻辑 " 和 " 行动执行 " 部分,全部是基于我们自研的强化学习结构来完成的。

AI 科技评论:为什么一定要自己预训练语言模型?是觉得现成的大模型不好用吗?

朱哲清:其实我们做的并不是一个语言模型,我们的强化学习模型本质上是为决策而设计的,而不是用来生成自然语言的。现在很多人采用的方法是直接套用别人的大语言模型,然后在外面再加一层 RL 层,去控制调用或交互。这种方式乍看之下效率高,但我们评估下来发现,用 " 壳 " 套语言模型来做 Agent,无法达到商用级别的精度和鲁棒性。

首先是成本问题,我们自研模型的成本大概是同等规模语言模型的十分之一。其次,从设计哲学上说,我们认为当前语言模型在 " 决策建模 " 上存在本质问题。比如,大模型做决策通常是一个 " token-by-token " 的生成过程,也就是一个字一个字地生成输出。但如果你真的是在进行一个复杂、多步、有规划的任务决策——那就根本不应该是这么个结构。我们认为从底层逻辑上,这种设计就不对。

所以我们重构了整个系统,不是语言生成驱动的,而是由强化学习驱动的结构化决策系统。

AI 科技评论:那现在很多人可能做得比 " 纯套壳 " 更多一点,会尝试对 LLM 做后训练,比如基于 RL 做一定程度的定制优化,你怎么看这种方式?

朱哲清:也不能说这种方式完全不可取,它在某些场景确实比 " 直接套壳 " 要强。但关键问题是,后训练的目标是什么?你到底要解决什么问题?你得从头去解构这个系统,只有把整个系统逻辑重新定义并重建,你才有可能做出一个真正 " 决策能力强 " 的 Agent。

现在大家在做 RL 时都默认是在语言模型架构上训练 LLM,这会把整个问题想得太狭窄。我们选择跳出这种范式,用自己的方式去重构决策架构,并借助 RL 去解决真正核心的规划与执行问题。

AI 科技评论:如果是大模型公司自己来做 Agent,会不会更有优势?

朱哲清:我觉得这要具体看你想做的 Agent 是什么类型。如果你定义的 Agent 只是处理语言相关任务,比如整理、检索、总结、推理这类,那么大型语言模型公司确实有很大优势。因为他们在语言理解和生成上的技术积累非常深厚。

但如果你定义的 Agent 是那种能在真实世界中行动、调用工具、与环境发生交互的智能体,那么单纯依赖语言模型是不够的。因为这时候,Agent 的决策空间、动作层、状态层,已经完全超出了文字表述,它们涉及的是复杂环境建模、工具链调用、状态变更,这些内容和语言的直接关系并不大。

举个例子:如果你要做一个供应链管理 Agent,处理的是仓库、运输、库存的路径规划,状态是网状图,不是文字。那么你的 Agent 需要理解和操作复杂结构化数据,而不仅仅是生成几段自然语言,在这种情况下,大模型公司在语言方面的积累优势就不明显了。所以,到底谁有优势,要看你定义的 Agent 是哪种类型。

AI 科技评论:那你觉得,未来有没有可能出现一种真正 " 通用 " 的 Agent?比如它既能做供应链优化,也能处理日常生活任务?

朱哲清:我认为不会存在一个单一的 Super Agent 来做所有事情。更可能出现的是一种分层结构:顶层有一个统一调度的总控 Agent(中央调度器),它根据用户输入分配任务给专业的垂类或者服务方的 Agent,各自处理特定领域的问题,比如供应链、内容创作、信息检索、金融决策、客户服务等等。

现在大家说的 " 多体 Agent"(multi-agent systems),其实跟学术界的定义还有点差距。真正学术意义上的 multi-agent,指的是多个智能体之间要么有通信协调,要么是互相竞争或协作去共同完成复杂任务。目前市面上的 " 多体 Agent",更多是简单的任务分工,但这种多体结构,确实是未来实现通用智能体的重要路径。

如果这样发展下去,我认为未来的形态可能是:用户不再需要手动使用各种 App、工具。只需要给系统输入一个自然语言指令或目标,比如:" 帮我完成这个项目 "、" 帮我制定旅行计划 "。后台有一整套分布式、模块化的 Agent 体系,自动完成从信息检索、决策规划、到实际执行的全部步骤。

就像今天的互联网,前端是浏览器,后端是各种网页和应用。未来的 Agent 体系,就是一个没有界面的 " 无形互联网 "。用户只需要给出目标,不再需要关注工具细节和操作过程。

雷峰网 AI 科技评论:在 Agent 的终极形态下, Browser 可能会被取代吗?

朱哲清:Browser 在今天可以理解为是人与互联网交互的一种通用前端。但如果未来 Agent 直接与智能体对接、交互,那么人作为中介、通过浏览器访问网站的这个过程就失去意义了。

我的观点是,长期来看,浏览器这种前端形态可能会消失,因为未来网络中的接口将主要是 Agent to Agent 的接口。人不再需要直接面对网页或 APP 界面,而是通过自己的 Agent,发出需求,由 Agent 与 其他 Agent 进行交互和任务协作。

所以,未来互联网可能是以智能体交互为核心的新网络体系,而不是依靠前端浏览器来组织信息。

AI 科技评论:那未来 Agent 与 Agent 之间的接口,主要是依靠 MCP 来完成的吗?

朱哲清:也不一定。虽然我们也会支持 MCP,但 MCP 是不是最后统一的标准,这点目前还不好说。但可以肯定的是,MCP 起到了推动的作用——至少让大家有了一套可以使用的基础接口,不至于完全没有标准。

未来我们也会提供自己的更简化版接口,希望把智能体之间的连接做得更轻量、更无感、更通用,而不仅仅是基于现在 MCP 这种复杂的模式。

雷峰网 AI 科技评论:在你看来,Agent 到底是什么?你有自己的定义吗?

朱哲清:我的理解是这样的:Agent 的核心在于 " 感知 " 和 " 执行 "。如果一个 Agent 不能自主执行,或者说它做完一件事情以后,对环境没有产生任何实际变化,那么在我看来,它只是一个生成型 Agent,而不是真正的执行型 Agent。

我举个简单的例子:如果你写了一篇文章,但它既没有发表在任何平台上,也没有被人阅读,也没有后续交互,那它就只是一个生成行为。但如果你写完文章后,自己决策在哪个平台发布,发布后根据用户反馈不断调整优化,这样使得你的账号粉丝数、曝光量发生变化——那么你的行为就对世界产生了不可逆的影响。

所以,一个真正的 Agent,必须满足两个标准:它的行为必须能对环境产生实际的、不可逆的影响,并且要能自主规划并执行任务。如果一个系统只是生成内容,真正决策和执行还是靠人来完成,那么它在我这里就不算是真正意义上的 Agent。

比如说,一个用户只要说 " 帮我运营我的公众号 ",Agent 自己去检索工具、规划路径、完成执行,用户无需知道有哪些工具、也无需干预具体步骤。这才是我们理解的下一代 Agent 的形态。