斯坦福等新框架,用在线强化学习让智能体系统 " 以小搏大 ",领先 GPT-4o ——
AgentFlow,是一种能够在线优化智能体系统的新范式,可以持续提升智能体系统对于复杂问题的推理能力。
它由规划器、执行器、验证器、生成器四个专业智能体组成的团队通过共享内存进行协作,利用新方法 Flow-GRPO,在系统内部直接对其规划器智能体进行实时优化。

搜索任务提升 14.9%、智能体任务提升 14.0%、数学任务提升 14.5%、科学任务提升 4.1%。
多项任务表现甚至超越比其大 50 倍的模型,超越 GPT-4o、Llama3.1-405B。


多智能体流(multi-agent flow)给人的感觉就像 " 相位耦合推理 "(phase-coupled reasoning)。很期待看到 " 协同能力 " 取代 " 规模 ",成为衡量智能的指标。



自 "AI 下半场 " 开启以来,智能体(Agent)在垂直领域与通用场景中呈现出井喷式发展。然而,在复杂决策与持续优化能力方面,当前智能体仍存在一定局限。如何将智能体的推理能力与强化学习的自我进化机制深度融合,成为突破这一瓶颈的关键所在。
在今年早些时候,随着 DeepSeek-R1 的发布,推理模型的训练方式迎来了新的启发。不久之后,伊利诺伊大学香槟分校(UIUC)发布 Search-R1,系统揭示了如何通过强化学习,训练能够自主推理并调用外部工具的推理模型(Tool-Integrated Reasoning Models)。
而在此之前,智能体系统(Agentic System)的发展也从系统层面推动了智能体协作与可扩展性的提升,为后续相关研究奠定了坚实基础。
例如,LangGraph、PydanticAI、OWL 等框架在智能体通信、任务规划与工具调用等方面进行了多样化的探索,为智能体生态的快速演进提供了有力支撑。

规划器负责分析任务并选择工具,执行器调用工具并整合结果,验证器基于累积记忆评估中间结果,生成器整合信息生成最终答案。

其中,AgentFlow 包含了以下几个关键组件:
模块化智能体结构。
AgentFlow 采用了四个具备记忆能力的专门化智能体协同配合,共同完成复杂推理,从而实现 " 即时学习 ":
(i)规划器(Action Planner):分析任务、制定策略并选择最合适的工具 ;
(ii)执行器(Tool Executor):调用工具集并整合工具执行结果 ;
(iii)验证器(Verifier):基于系统维护的累积记忆评估中间结果是否满足目标与约束 ;
(iv)生成器(Generator):整合所有信息与验证反馈,生成最终答案或行动建议。
AgentFlow 流中强化学习。
AgentFlow 的关键创新在于:规划器(Planner)并非固定不变,而是能够在智能体交互的 " 流 "(flow)中实时进行 on-policy 优化,使决策过程随着环境变化及其他智能体的反馈不断自适应进化。集成过程分为三个步骤:(i)环境感知与记忆检索,(ii)动作规划与工具选择,(iii)策略优化与记忆更新。
Flow-GRPO:流中强化学习优化算法。
实现智能体流中强化学习训练的核心挑战在于多轮信用分配(multi-turn credit assignment):即如何在长时跨度(long-horizon)且奖励稀疏(sparse reward)的条件下,稳定且高效地训练。为此团队提出动作级别的(Action Level)的多轮推理优化目标。


为了充分评估 AgentFlow 的泛化能力与高效性,研究团队在 10 个跨各个领域的基准测试上进行了系统评测,涵盖知识检索、智能体任务、数学推理和科学推理四大类。

知识检索(Search):提升 14.9%
智能体推理(Agentic Reasoning):提升 14.0%
数学推理(Math):提升 14.5%
科学推理(Science):提升 4.1%
值得注意的是,AgentFlow 的表现甚至超过了大规模的专有模型,如 GPT-4o(~200B)。


研究团队在 10 个基准测试上进行了评估,涵盖知识检索、智能体任务、数学推理和科学推理四大类。一些有趣的发现:
1、模型规模不是唯一答案
使用 7B 参数的 AgentFlow 在多个任务上超过了约 200B 参数的 GPT-4o,Llama3.1-405B,在搜索任务上领先 8.2%,在智能体任务上领先 15.8%。这再一次展现了,合理的系统设计和训练方法可能比单纯堆砌参数训练 All in one 的大模型更有效。
2、" 在流中学习 " 至关重要
对比实验显示,若采用离线监督学习(SFT)方式训练规划器,性能反而显著下降,平均降低 19%。
这表明,智能体在真实交互环境 " 流 " 中进行在线学习是实现高效推理的必要条件。
此外,尽管 AgentFlow 的推理流本身能够利用其强大的任务分解能力带来显著性能提升,但仍可能出现循环错误或卡顿问题。通过在真实环境中的训练,智能体系统展现出快速修正错误的工具调用、更精细的子任务规划,以及全局任务解决性能的提升。
这些结果进一步证明了模块协作机制以及流中强化学习在提升多轮智能体系统稳定性与效率方面的显著作用。


有意思的是,经过 Flow-GRPO 的强化训练规划器,系统学会了根据任务特点选择合适的工具组合;同时,经过训练的系统会自发探索出新的工具使用模式,比如组合使用维基百科搜索(Wikipedia Search)和特定网页增强搜索(Web Search)的连招,通过工具链获得更加深入地信息挖掘,而这些模式几乎没有在未训练的推理流中出现。

对于相同的数据集下的不同难度任务:譬如说多跳搜索(Multihop Search),智能体任务中的密集长链推理任务,AgentFlow 在经过 FlowGRPO 训练后能够随着最大限制推理步数的上升稳步提升性能,同时又不会大幅提升平均推理步数——这表示对于长难任务会增加有效的推理步数来提升正确率,而不会一味地所有任务都随着最大轮数限制而延长推理步数。


与其追求一个功能完备的单一大语言模型或 " 一次性完美 " 的智能体系统,不如让智能体在系统中自我适应与持续学习。
通过将群体智能与 " 边做边学 " 的范式相结合,AgentFlow 使智能体系统能够在协同演化中不断优化,从而高效应对复杂任务。
尽管从研究探索到实际应用仍有较长的距离,但这让团队看见 Agentic AI 依然蕴藏着巨大的潜力与想象空间。
论文地址:https://arxiv.org/abs/2510.05592
项目主页:https://agentflow.stanford.edu/
Github 仓库:https://github.com/lupantech/AgentFlow
在线 Demo:https://huggingface.co/spaces/AgentFlow/agentflow
YouTube 视频:https://www.youtube.com/watch?v=kIQbCQIH1SI
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

科技前沿进展每日见