Pokee.ai 朱哲清：用 RL 搭建智能体的「骨骼与神经」

在 Pokee.ai 内测之前，我们就先感受了一把这款 Agent 的能力。

" 你发给我一个邮件就行，我的 Agent 能自动生成日程表。" 在跟朱哲清约电话会议的时候，微信那头的这个人如是说。

他是知乎和小红书的双料活跃用户，同时也是强化学习界冉冉升起的新星。他和团队 2023 年 12 月份就发布了开源强化学习框架 Pearl，上线首日即在 Github 上收获了 540 star，目前更是升至 2.8k。

2016 年，AlphaGo 击败李世石的那个晚上，还是少年的朱哲清捧着手机，静静坐在杜克大学教堂前，意识到 AI 已经走向了真实世界。他开始接触强化学习（RL），从此就成为了 RL 的忠实信徒，即使在这一技术路线陷入最低谷时也从未想过放弃。

后来他在 Meta 带领边缘化的 RL 团队逆势突围，将强化学习真正部署在广告竞价、推荐系统和自动内容生成等核心业务中，每年为公司创造数亿美元的增益。

在 Meta 升职到 E7 后，朱哲清还是无法忘记他长期思考的本质问题：这在面对那么多不同类型的问题时，有没有一种 RL 路径，可以做到真正通用的智能体？怀揣着这个问题，在半年多前结束了他 7 年半的 Meta 生涯，成为了一名 AI Agent 创业者。

创业并不容易，在我们的聊天中，他承认自己创业这半年来完全没有休息过，团队 4 个人，搞定了模型架构、自动化、训练、部署，再到 infra、产品等所有工作，这才在 4 月份的最后两天推出了这款内测版本的 Pokee.ai。

借此机会，《AI 产品十人谈》系列选择对话朱哲清，详细探讨了他对强化学习与 Agent 的思考、探索与实践。谈到创业，这位一项冷静的强化学习研究者也忍不住激动起来，毕竟一切正如他在知乎上所写下的：

这波 AGI 的浪潮真的很大，亲自踏浪才不会后悔。

以下是 AI 科技评论与朱哲清的对话实录，作者进行了不改原意的编辑整理：

一个坚定的 RL 信仰者与他的 ASI 野心

AI 科技评论：从你的学术背景和工作经历来看，你一直在做强化学习相关的研究和实践。你是从什么时候开始接触强化学习的？

朱哲清：我接触强化学习非常早，大概是在 2016 年，本科二年级的时候。当时我开始学习和研究一些 RL 相关的内容，尤其是偏 Planning 方向的东西。

李世石和 AlphaGo 对战的比赛对我影响非常深。当时我正在上关于强化学习的 AI 课程，AlphaGo 比赛之后，这门课突然爆满。可以说，那是 RL 第一次在大众层面迎来真正的高光时刻，AI 第一次在围棋上战胜人类，彻底改变了人们对人工智能的看法。随后几年里，围绕 AlphaStar 在星际争霸等复杂游戏中的突破，让更多人关注起 RL。但很快我也亲历了这个领域的 " 冷却期 "。

当我正式进入工作后，发现强化学习的热度开始逐渐回落，甚至可以说是急转直下。原因其实很现实，RL 始终难以脱离 " 游戏环境 "。它的训练强依赖环境的构建和反馈机制，而这些在真实世界中是很难完整设定的。比如围棋、电子游戏都有明确定义的规则和反馈路径：你下什么棋会导致什么后果，系统可以清晰反馈。

但现实世界的任务场景，比如搜索排序、内容推荐、或者安卓平台上的用户行为建模，它们的反馈往往不是人为规定好的。这就意味着我们很难构建出一个训练环境去承接 RL 的策略优化过程。包括 Alphago 项目的核心成员 David Silver 在那之后也一直尝试把这些技术迁移到真实世界中，但最终仍不得不退回到更明确反馈机制的任务，比如数学证明之类。

所以，在 AlphaGo 之后虽然曾有一波 RL 热潮，但由于真实落地太难，这波热度很快就降温了。真正把 RL 带回大家视野的，其实是 RLHF 的兴起。从 2017 年、2018 年开始，直到 2022 年之前，RL 基本处于一个低谷期。在这段时间里，大多数研究者其实都远离了这个方向。彼时的行业主流观点认为，Transformer 已经能解决一切，算法不再重要，数据和大模型参数才是关键，RL 似乎已经 " 过时 " 了。

但是我没有放弃，一直坚定地认为 RL 仍有价值，关键是找到它真正适合的落地路径。在 Meta 工作的那几年，我见证了整个 RL 团队从高峰走向边缘。当时 Meta 的 RL 团队从二十几人一路缩减到三个人，公司甚至打算把这个团队解散。我在那个时间点主动请缨，" 把这个团队交给我试试。如果我做不好，你怎么处理我都可以。但如果我带得起来，希望你给我继续发展的空间。"

就这样，我从三个人开始，一点一点把团队重新带起来，最后回到了十几人的规模。可以说，我完整经历了整个 RL 从爆发、低谷、再到新一轮复苏的全过程。而我们的 " 复苏 " 甚至比 RLHF 那一波重新火起来还要早一些。

AI 科技评论：你坚信 RL 的理由是什么呢？

朱哲清：核心原因其实很简单。我的判断是，单靠 " 预测 " 并不足以完成复杂任务。我举一个例子：

比如你要做一个关于 " 人工智能与强化学习关系 " 的专题报道，要写三四篇文章。你有两种方式来展开这个任务。

第一种是 " 走到哪算哪 " 的思路：你不设定清晰的最终目标，只是每写一篇就基于当前内容预测下一篇，比如第一篇写强化学习的概念，第二篇自然而然谈应用，第三篇再讲现实中的实例……路径是发散的，没有明确终点。

第二种则是 " 目标驱动式 " 的思考：你的明确目标是让读者理解强化学习在人工智能中的重要性。基于这个目标，你会倒推：首先列举一些强化学习的应用案例，比如 AlphaGo、AlphaStar，再进一步引申到现实场景中的价值，最后讨论强化学习相对于其他算法的独特优势。

这两种思维路径本质上完全不同。而后者——以目标为导向、倒推任务路径，才是人类解决复杂问题时的典型模式。你不可能靠 " 走到哪算哪 " 的随机推进，来系统地完成一个复杂的项目。

强化学习的本质优势就在这里：它的思维结构（thinking structure）是围绕 " 目标驱动 " 的。只有围绕明确目标，不断调整策略、规划路径，才能真正攻克复杂问题。

所以当时我就认定，即使未来模型变得再大、训练数据再多，如果它们没有明确的目标驱动、没有基于奖励机制去主动规划和执行的能力，就永远无法真正完成复杂任务。这就是我当年坚持 RL 的底层逻辑。

AI 科技评论：所以你在 Meta 证明了你对 RL 的坚持是正确的？

朱哲清：我接手之前，RL 团队同时对接多个项目，只做咨询式的工作，成果非常少，地位也很边缘化。我接手之后做了一个非常果断的决定：只保留一个项目，集中所有资源，把这个项目做到真正有说服力、有价值、有成果。结果就是，我们给公司带来了每年 5 亿美元以上收入潜力的应用点。

AI 科技评论：你觉得你做对了什么？

朱哲清：这背后其实有一个前提，就是你自己必须对 RL 有非常深刻的认知，不仅要懂算法，还要能够真正落地到复杂的、真实的应用场景中。

我们确实看到了很多 RL 算法逐渐出现通用性的迹象，但离真正的一以贯之的通用 RL 框架，还差很远。我们想要追寻的是，打造一种能够从头到尾用 RL 逻辑贯穿的通用 Agent。不管面对什么任务、什么问题，只要把任务丢给 Agent，它就能自主规划、自主解决。

这其中更本质的问题就是：在面对那么多不同类型的问题时，有没有一种 RL 路径，是可以做到真正通用的？这是我在 2024 年 10 月离开 Meta 之前，我们团队一直在探索的核心议题。

AI 科技评论：其实你一直都在寻找一种真正底层通用、能够大范围解决问题的 RL 框架？

朱哲清：因为 RL 本身有很多天然的限制，比如线下学习的问题，你可以从数据集中学到一定的东西，但线下数据和真实环境差异巨大。并且线下学到的策略如何安全且高效地应用到线上？两者差异怎么修正？线上运行后，如何持续收集新数据，不断训练优化，且避免性能退化？

所有这些问题，如果每次都靠单独的 trick 和特殊设定去解决，就永远不可能有真正通用的 RL 方法。所以我们想要的是一整套统一的结构性解决方案。从我的角度看，RL 其实是一个被严重低估、也被低度开发的方向，目前它大多数时间仍处在一个 " 辅助工具 " 的角色。

无论是 OpenAI 的 RLHF，还是 DeepMind 推出的一些模型，它们大多数都是在已有的预训练模型基础上进行增强，比如，我已经有一个不错的大模型，然后通过 RLHF 这种方式，让它在某个维度上 " 更好 "，比如提高用户满意度、优化输出表现等等。所以目前的 RL 更多是一种 " 增强器 "，不是主角。

AI 科技评论：你是觉得它还没有成为 " 主导智能 " 的那部分技术。

朱哲清：从我个人理解来看，现在这波 AI，已经可以说达到了 " 近人类级别智能 "（human-level intelligence）的 80%~90%。虽然 AGI（通用人工智能）这个概念非常模糊，但我们可以先不去定义它。那下一步呢？很多人谈的是 " Superhuman Intelligence"（超人类智能）。如果真要往这个方向走，我认为强化学习是绕不开的路径。

因为大型语言模型最擅长的是知识回忆和模仿，它能提出建议、生成文本，但它缺乏 " 结构化解决问题 " 的能力，也就是它没有 " 主动性 " 或 " 目标驱动性 "。而 RL 的本质，就是解决目标导向的问题。你不能靠 " 模仿 " 去解决从未见过的复杂任务。你要有策略、目标、反馈机制，要能在未知环境中自主探索和优化。这才是真正的智能。

而且我个人觉得，现在很多程序员、算法工程师的基础工作，包括模型微调、推理部署，这些事情很快都会被 AI 自动化工具所替代。甚至连预期管理、内容生成类工作，也都会被 " 会表达、会规划 " 的 AI 接管。这意味着，下一代智能突破口的研发，是最值得花时间的事。

这也是我为什么选择离开 Meta，去做我现在这家公司。我们现在在做的，不只是工具产品，而是在构建一个 " 能力系统 "。先通过工具 + 规划去接近智能体的标准，然后逐步扩展它的工具库、操作空间和决策深度。目标不是像人一样完成任务，而是超过人类在某些任务中的策略选择和规划能力。

这就是我所理解的 " 通向 Superhuman Intelligence " 的路径。

什么才是下一代的 Agent？

AI 科技评论：谈谈你的这款 AI Agent 产品 Pokee.ai 吧。

朱哲清：Pokee.ai 是一款具备强执行力的通用 AI Agent，它不是停留在 " 生成内容 " 层面的助手，而是一个能真正动手完成复杂任务的智能执行体。你只需要用自然语言下达一个指令，比如 " 生成一组社交媒体内容并发布 "，Pokee.ai 就能在没有任何脚本配置的前提下，自动调用合适的工具，完成从内容创作、图片生成、格式适配到平台发布的全过程。

而且，这种执行力不止于社媒内容，工程团队已经用它来自动生成 Zoom 会议纪要，也能通过一句 " 搭建一个 AI Agent 网站 "，让它自动创建 GitHub 仓库，写出 HTML+JS 页面，并发布到 GitHub Pages，全流程无需开发者手动介入。

除此之外，Pokee.ai 还能在商业场景中提升效率，比如我安排一个团队会议，只需告诉它我要周五开个关于 AI Agent 市场趋势的会议，它就会帮我完成调研、搜图、做幻灯片、安排日程、发送日历邀请，并附上资料链接，原本要我花几个小时做完的准备工作，现在只需几分钟就能搞定。

更关键的是，在我们做过的对比实验中，Pokee.ai 在面对成千上万的工具时依然保持了超过 97% 的执行准确率，而其他基于 LLM 的 Agent 在工具数超过 500 时就会显著下降，几乎不可用。Pokee.ai 的优势在于它的可扩展性和稳定性，不论工具数量如何扩展，它的响应成本几乎不变，这使它成为真正有机会覆盖全网服务的 Agent 架构。

未来，我们也会开放 API 和 SDK，让每个团队、每位开发者都能拥有属于自己的 Pokee Agent，用最自然的方式去指挥最复杂的任务。

AI 科技评论：听起来你现在做的 AI Agent，不只是工程产品，更像是在研究 " 下一代智能体 "。

朱哲清：是的，我们现在团队其实一直是在两条腿走路。一方面是做 " 早期产品 " ——比如用户能体验到的 Agent 系统，它可以帮你规划、执行任务，有清晰的人机交互流程，也可以支持外部的应用落地。这部分要服务好市场，满足用户的期待，不能偏离 " 智能体该有的样子 "。

另一方面，我个人其实把很大一部分精力都投在了 research 上。我们现在的很多核心代码，包括 RL 训练、模型结构设计，其实都是我亲自写的。我大概把时间一半花在技术产品、商业和团队沟通上；另一半全在研究上。

我们现在一直在推进的方向，同时也是团队最重要、我个人最长期关注的目标就是：到底有没有一套通用的 RL 结构，能够横跨多个场景真正做出 " 具身智能体 "？

AI 科技评论：所以你们一开始其实是先做一个技术落地证明，对吧？

朱哲清：对，我们刚开始做 Pokee.ai 的时候，核心目标是先证明这个技术能打硬仗。那时候无论是投资人还是业界大部分人，对 "RL+Agent" 到底意味着什么，其实都还很模糊。甚至连 "Agent" 这个词具体指什么，很多人都搞不清楚。我印象很深，当时和投资人聊时，他们经常会反复问：" 你这个技术方向到底在做什么？"、"Agent 能落地成什么样？"、" 你们怎么打算实现？"

所以我们公司成立的两个月之内，就完成了一个电商场景下的 Agent 系统落地：我们把 SDK、API、GraphQL、Command Line 这些全都接入到了我们的 Agent 系统中，ToB 和 ToC 两侧都可以覆盖。并且这个项目在两个月内就做完了，完成度非常高。对比来看，别人可能要花一年才能做出来的产品，我们在短时间内就做得功能更全、更稳定。这其实已经是很强的技术证明了。

但我们没有止步于此。我们很快意识到，要证明这个 Agent 是真正 " 通用 " 的，仅靠几十上百个工具还远远不够。于是我们很快扩展到了上千、上万个工具级别的调用能力，专门来训练和验证我们的 Agent 是否具备普适性的规划和调度能力。

AI 科技评论：目前你们用的这个模型，是一个什么样的模型？是完全自研的吗？

朱哲清：我们没有使用任何开源机构的模型，所有模型都是完全自主训练的。

我们的架构是这样的：我们有一个小型语言模型作为人机交互界面，相当于是我们的 " UI 层 "，用于理解用户指令和上下文。但真正的 " 决策逻辑 " 和 " 行动执行 " 部分，全部是基于我们自研的强化学习结构来完成的。

AI 科技评论：为什么一定要自己预训练语言模型？是觉得现成的大模型不好用吗？

朱哲清：其实我们做的并不是一个语言模型，我们的强化学习模型本质上是为决策而设计的，而不是用来生成自然语言的。现在很多人采用的方法是直接套用别人的大语言模型，然后在外面再加一层 RL 层，去控制调用或交互。这种方式乍看之下效率高，但我们评估下来发现，用 " 壳 " 套语言模型来做 Agent，无法达到商用级别的精度和鲁棒性。

首先是成本问题，我们自研模型的成本大概是同等规模语言模型的十分之一。其次，从设计哲学上说，我们认为当前语言模型在 " 决策建模 " 上存在本质问题。比如，大模型做决策通常是一个 " token-by-token " 的生成过程，也就是一个字一个字地生成输出。但如果你真的是在进行一个复杂、多步、有规划的任务决策——那就根本不应该是这么个结构。我们认为从底层逻辑上，这种设计就不对。

所以我们重构了整个系统，不是语言生成驱动的，而是由强化学习驱动的结构化决策系统。

AI 科技评论：那现在很多人可能做得比 " 纯套壳 " 更多一点，会尝试对 LLM 做后训练，比如基于 RL 做一定程度的定制优化，你怎么看这种方式？

朱哲清：也不能说这种方式完全不可取，它在某些场景确实比 " 直接套壳 " 要强。但关键问题是，后训练的目标是什么？你到底要解决什么问题？你得从头去解构这个系统，只有把整个系统逻辑重新定义并重建，你才有可能做出一个真正 " 决策能力强 " 的 Agent。

现在大家在做 RL 时都默认是在语言模型架构上训练 LLM，这会把整个问题想得太狭窄。我们选择跳出这种范式，用自己的方式去重构决策架构，并借助 RL 去解决真正核心的规划与执行问题。

AI 科技评论：如果是大模型公司自己来做 Agent，会不会更有优势？

朱哲清：我觉得这要具体看你想做的 Agent 是什么类型。如果你定义的 Agent 只是处理语言相关任务，比如整理、检索、总结、推理这类，那么大型语言模型公司确实有很大优势。因为他们在语言理解和生成上的技术积累非常深厚。

但如果你定义的 Agent 是那种能在真实世界中行动、调用工具、与环境发生交互的智能体，那么单纯依赖语言模型是不够的。因为这时候，Agent 的决策空间、动作层、状态层，已经完全超出了文字表述，它们涉及的是复杂环境建模、工具链调用、状态变更，这些内容和语言的直接关系并不大。

举个例子：如果你要做一个供应链管理 Agent，处理的是仓库、运输、库存的路径规划，状态是网状图，不是文字。那么你的 Agent 需要理解和操作复杂结构化数据，而不仅仅是生成几段自然语言，在这种情况下，大模型公司在语言方面的积累优势就不明显了。所以，到底谁有优势，要看你定义的 Agent 是哪种类型。

AI 科技评论：那你觉得，未来有没有可能出现一种真正 " 通用 " 的 Agent？比如它既能做供应链优化，也能处理日常生活任务？

朱哲清：我认为不会存在一个单一的 Super Agent 来做所有事情。更可能出现的是一种分层结构：顶层有一个统一调度的总控 Agent（中央调度器），它根据用户输入分配任务给专业的垂类或者服务方的 Agent，各自处理特定领域的问题，比如供应链、内容创作、信息检索、金融决策、客户服务等等。

现在大家说的 " 多体 Agent"（multi-agent systems），其实跟学术界的定义还有点差距。真正学术意义上的 multi-agent，指的是多个智能体之间要么有通信协调，要么是互相竞争或协作去共同完成复杂任务。目前市面上的 " 多体 Agent"，更多是简单的任务分工，但这种多体结构，确实是未来实现通用智能体的重要路径。

如果这样发展下去，我认为未来的形态可能是：用户不再需要手动使用各种 App、工具。只需要给系统输入一个自然语言指令或目标，比如：" 帮我完成这个项目 "、" 帮我制定旅行计划 "。后台有一整套分布式、模块化的 Agent 体系，自动完成从信息检索、决策规划、到实际执行的全部步骤。

就像今天的互联网，前端是浏览器，后端是各种网页和应用。未来的 Agent 体系，就是一个没有界面的 " 无形互联网 "。用户只需要给出目标，不再需要关注工具细节和操作过程。

雷峰网 AI 科技评论：在 Agent 的终极形态下， Browser 可能会被取代吗？

朱哲清：Browser 在今天可以理解为是人与互联网交互的一种通用前端。但如果未来 Agent 直接与智能体对接、交互，那么人作为中介、通过浏览器访问网站的这个过程就失去意义了。

我的观点是，长期来看，浏览器这种前端形态可能会消失，因为未来网络中的接口将主要是 Agent to Agent 的接口。人不再需要直接面对网页或 APP 界面，而是通过自己的 Agent，发出需求，由 Agent 与其他 Agent 进行交互和任务协作。

所以，未来互联网可能是以智能体交互为核心的新网络体系，而不是依靠前端浏览器来组织信息。

AI 科技评论：那未来 Agent 与 Agent 之间的接口，主要是依靠 MCP 来完成的吗？

朱哲清：也不一定。虽然我们也会支持 MCP，但 MCP 是不是最后统一的标准，这点目前还不好说。但可以肯定的是，MCP 起到了推动的作用——至少让大家有了一套可以使用的基础接口，不至于完全没有标准。

未来我们也会提供自己的更简化版接口，希望把智能体之间的连接做得更轻量、更无感、更通用，而不仅仅是基于现在 MCP 这种复杂的模式。

雷峰网 AI 科技评论：在你看来，Agent 到底是什么？你有自己的定义吗？

朱哲清：我的理解是这样的：Agent 的核心在于 " 感知 " 和 " 执行 "。如果一个 Agent 不能自主执行，或者说它做完一件事情以后，对环境没有产生任何实际变化，那么在我看来，它只是一个生成型 Agent，而不是真正的执行型 Agent。

我举个简单的例子：如果你写了一篇文章，但它既没有发表在任何平台上，也没有被人阅读，也没有后续交互，那它就只是一个生成行为。但如果你写完文章后，自己决策在哪个平台发布，发布后根据用户反馈不断调整优化，这样使得你的账号粉丝数、曝光量发生变化——那么你的行为就对世界产生了不可逆的影响。

所以，一个真正的 Agent，必须满足两个标准：它的行为必须能对环境产生实际的、不可逆的影响，并且要能自主规划并执行任务。如果一个系统只是生成内容，真正决策和执行还是靠人来完成，那么它在我这里就不算是真正意义上的 Agent。

比如说，一个用户只要说 " 帮我运营我的公众号 "，Agent 自己去检索工具、规划路径、完成执行，用户无需知道有哪些工具、也无需干预具体步骤。这才是我们理解的下一代 Agent 的形态。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频剪辑

AI视频剪辑

AI智能客服

AI工具箱

AI写稿助手

AI口语陪练

我的订阅

Pokee.ai 朱哲清：用 RL 搭建智能体的「骨骼与神经」

宙世代

一起剪

相关阅读

特斯拉：Model 3和焕新Model Y超95%零件都产自中国

90后当起“做饭阿姨”，不打卡月入上万

Intel官宣！全新锐炫Pro显卡台北Computex见

配320W快充强无敌！真我10000mAh电池手机细节：主板全球最窄、背后透明

鸿蒙PC来了！华为终端全面进入鸿蒙时代

鸿蒙电脑诠释优雅美学！手机上的都搬过来了

发挥全域经营优势，快手电商2024年短视频GMV同比增长超50%

Ampere低调推出新款192核心处理器：支持12通道DDR5！

华为鸿蒙PC搭载方舟图像引擎：像素级遮挡剔除 多窗无压力

金山办公与华大集团战略签约，推进生命科学与AI办公融合发展

雷军已有一个多月没有健身打卡 本人：我会尽快恢复

苹果高管：10年后你可能不需要iPhone了

骑车也能融入篮球圈？NBA与哈啰连夜宣布：定制共享单车要来了

苹果欲在浏览器中加入AI搜索功能 谷歌天塌了：股票大跌7%

小米道歉：SU7 Ultra排位模式需要解锁给车主带来了困扰

最新评论

雷峰网

热门推荐

华为鸿蒙PC搭载方舟图像引擎：像素级遮挡剔除多窗无压力

雷军已有一个多月没有健身打卡本人：我会尽快恢复

苹果欲在浏览器中加入AI搜索功能谷歌天塌了：股票大跌7%