关于ZAKER 合作
量子位 10分钟前

吴恩达 Agentic AI 新课:手把手教你搭建 Agent 工作流,GPT-3.5 反杀 GPT-4 就顺手的事

吴恩达又出新课了,这次的主题是—Agentic AI

在新课中,吴恩达将 Agentic 工作流的开发沉淀为四大核心设计模式:反思、工具、规划与协作,并首次强调评估与误差分析才是智能体开发的决定性能力:

谁能建立起系统化的评估与误差分析流程,持续定位并改进智能体工作流中的问题,谁就在智能体开发中领先一步

在课程演示中,通过使用 Agentic 技巧,甚至可以让 GPT-3.5 在编程任务中轻松秒杀 GPT-4。

Agentic AI 不再让模型一次性 " 憋 " 出答案,而是学会拆解任务、反思结果、用工具修正偏差,并在多轮循环中不断优化。

这种更像人类的工作流,让它的表现远超传统的端到端 Agent。

想知道这是怎么做到的?来,跟着吴老师无限进步就完了!

Agentic AI:从 " 调模型 " 到 " 设计系统 "

首先需要明确的一点是,与其说这次的新课是吴恩达关于智能体开发的技术教程,不如说它是一门揭示 Agentic AI 背后系统性方法论的课程——

它关注的重点,不是如何堆叠工作流界面,而是如何让 AI 像人类一样,通过分解、执行与优化来解决复杂问题。

其中,任务分解既是构建 Agentic 工作流的起点,也是持续改进与优化系统的前提。

例如,我们在写论文时,往往会先设计提纲,再查找资料、撰写初稿、反复修改。

AI 同样需要这样的结构化过程。

换句话说,写作这一任务本身就是由多个相互衔接的子任务组成的。

而 Agentic 的核心理念,就是让大语言模型以多步推理与分阶段执行的方式工作,而非一次性生成结果。

那么,如何拆解复杂任务呢?

吴恩达在课程中指出,他通常会先分析一个现有流程,将其拆解为离散步骤,并思考哪些步骤可由大模型实现(例如通过调用 API 或工具)。

若模型暂时无法完成某一步,他会继续将任务细化,直至能够落地实现。

在获得初始工作流后,接下来的关键是评估与改进——分析系统性能、定位薄弱环节,并不断优化迭代。这种以" 分解—执行—评估—优化 "为核心的循环,正是 Agentic 的本质与此次课程的关键。

接下来,我们就来看吴恩达提出的四种 Agentic 设计模式。

首先是Reflection(反思)

反思的核心思想非常简单,就是让大模型让检视自己的输出结果,并思考如何改进。

例如,我们可以让模型先输出一段代码,然后将测试结果报给它,让它在这个基础上修改。

在这里,吴恩达在这里分享了自己利用反思方法的经验:

首先,他指出,可以不仅在单一大模型上进行优化,还可以让两个模型互相配合,通过 " 左右互搏 " 获取更优答案。

其中,使用具备推理能力的模型进行反思,通常比非推理模型效果更佳,因此在设置生成与反思模型时,可以尝试不同的组合策略。

其次,在某些情况下,凭经验或直觉难以判断哪个输出更优,这时就需要客观的评估标准。

为此,可以人为设定量化评分机制,例如二元打分,让大模型根据评分计算结果,从而获得相对公正的评估。

最后,若能够获取外部反馈,其效果通常远超仅依赖模型自身的反思。

例如,可以提供参考答案或正确内容,让大语言模型参照这些信息进行自我修正,从而显著提升输出质量。

接下来是工具调用(Tool use)

与传统硬编码、固定的工作流不同,工具调用指的是由大语言模型驱动的应用能够自主决定调用哪些功能,例如进行网页搜索、访问日历、发送邮件或编写代码等。

模型可以通过外部函数,来实现相应的请求。作为开发者,可以提前集成多个工具,然后根据用户请求,让大语言模型调用。

在这里,吴恩达对比了传统的工具调用流程和现在流行的 MCP 方法。

传统流程中,开发者需要先将工具提供给大语言模型,实现对应函数,并告知模型该工具可用。

当大语言模型决定调用工具时,它会生成特定输出,提示开发者调用该函数,获取结果后再反馈给模型,以便模型继续执行后续操作。

显然,这种方式更像是开发者在主动调用工具,而非大模型自主执行。

由于实际需求复杂且多样,开发者不可能为每个功能手动实现,最理想的方式是让大模型能够自主生成、调用并匹配工具。

为此,可以使用吴恩达及其团队开发的 AISuite 开源库,这一 Python 库旨在简化大语言模型与多个提供商之间的集成,让模型能够自主调用工具。

值得注意的是,让模型自行编写和调用代码仍存在一定风险。

在测试中,吴恩达发现大语言模型偶尔会删除代码,因此建议在沙盒环境(如 Docker 或 e2b)中进行操作,以确保安全和可控。

与此同时,不同的开发者可能都想让 AI 或程序去操作 Slack、GitHub、数据库、云服务等来获取数据或工具。

由于每个开发者都独立实现接口,写不同的 API 调用、认证方式、数据解析,而这无异于重复造轮胎

于是就出现了 " 统一协议 " 或 " 抽象层 " 的想法,例如 Anthropic 提出的 MCP。

MCP/ 统一协议把散乱的工具调用从 " 各自为政 " 变成了 " 标准客户端 - 服务器模式 ",AI 只需要像调用本地函数一样调用服务端即可。

这极大地方便了当下的智能体工具调用流程。

接下来是规划(planning)

在实际开发中,如果每遇到一个请求就临时补丁一个工具,不仅低效,而且难以形成可复用的流程。

因此,就需要规划使大模型能够根据不同请求,灵活调整工具序列的执行顺序,从而优化性能与资源使用。

例如,出于成本和延迟的考虑,对于一些问题,如果可以通过调用函数快速解决,就不必让模型去执行耗时的网页搜索。

为实现这一点,吴恩达分享了一个实用技巧:可以通过提示将执行步骤转化为JSON代码形式,将任务离散化,使模型能够严格按照步骤执行。

通过这种方式,Agent 的任务执行表现能够得到显著提升,同时也为后续的评估和优化提供了清晰的操作轨迹。

最后是多智能体协作(Multi-agent collaboration)

多智能体协作(Multi-agent Collaboration)指的是构建多个具备不同专长的智能体,共同完成复杂任务,就如同一家公司雇佣多名员工,各司其职。

这个机制类似于计算机中的多线程,能够让开发者专注于某一个组件的优化,同时让其他智能体处理其余任务,最后将各环节结果整合,从而提升整体效率和任务完成质量。

此外,大语言模型不仅可以调用工具,还可以调用其他智能体,实现不同层级的嵌套调用。

这种结构化协作方式类似于企业中的组织架构,使复杂任务的分工与协作更加清晰、高效,同时也为工作流的可扩展性和可维护性提供了保障。

除了以上的构建模式,吴恩达还分享了构建 Agentic 的实用技巧。

这里其实颇像强化学习里的采样 - 评估 - 改进的循环。

每一步智能体工作流的构建,实际上都可以看作是一个闭环迭代反馈:

Build / Sampling(采样):首先搭建系统或工作流,让模型在不同任务或请求上尝试执行,收集输出结果。

Evaluation/Analyze(评估):对输出进行分析,既有端到端的整体评估,也有组件级别的精细评估,快速定位错误来源。

Improvement(改进):根据评估结果优化流程或组件,调整参数、替换模块、改进提示词或拆分步骤,然后进入下一轮循环。

通过这种循环,Agentic AI 不断迭代升级,就像强化学习中的智能体通过反复试验和反馈,逐步提高策略效果。

不同的是,这里的 " 策略 " 是工作流和组件设计,即通过反思、工具调用、规划与多智能体协作等 agentic 工作流,实现任务拆分、组件优化与迭代改进,从而让 AI 系统在复杂场景中高效执行、持续进化。

具体来说,错误评估既有端到端的输入输出评估,也有组件级别的评估,而组件级别的评估可以更快的找到具体出现错误的地方,从而集中精力更好、更快的改进系统。

在构建 Agentic 工作流时,收集和分析错误是优化系统的核心环节。

这里所指的错误,是指某一步输出的结果明显低于人类专家在相同输入下的表现。

为此,可以通过追踪中间执行轨迹来定位问题所在的环节。

比如,如果提示词本身没有问题,但网页搜索结果出现垃圾信息,则问题可能出在大语言模型调用搜索工具的环节。

如果 PDF 转文档出现错误,则需要检查大语言模型的识别和提取模块是否存在问题。

这种评估既可以依赖人工完成,也可以通过大语言模型辅助加速。

例如,可以创建高可信度的信源清单,或者编写能够多方求证的工具,从而提高组件级评估的效率。

接下来,通过组件级评估,可以针对特定环节进行优化:调整组件参数,例如修改 RAG 搜索范围(按时间、类别等);替换组件,包括函数或工具;改进大模型组件,例如优化提示词、尝试不同模型、拆分流程或进行微调。

在更换或选择大模型组件时,吴恩达提供了一些自己的实践直觉:

首先,多尝试不同模型,准备多种测试问题以评估性能。

其次,参考他人如何编写提示词,并以此锻炼自身提示词设计能力。

最后,将不同模型应用于工作流中,观察其在各个步骤的表现,从而不断迭代和提升整个系统的可靠性与效率。

以上就是吴恩达课程的粗略梳理,课程全集可在 Deeplearning.AI 上订阅收听。

为什么是 Agentic 而不是 Agent

对于到底是 Agent 还是 Agentic,早在去年年初,吴恩达就提出了自己极具前瞻性的思考:Agentic 作为形容词,而非二元分类,表示系统在智能体特性(自主性)上的不同程度。

这一表述在当时有助于厘清概念,使开发者和研究者能够更准确地理解和描述系统在智能体能力上的连续性,而不是将其简单地划为 " 是 " 或 " 不是 "。

而在此次的课程中,我们又可以进一步的窥见其思考的加深:Agentic 的意思是一个基于大语言模型(大语言模型)的应用程序执行多个步骤来完成一项任务。

与传统的 Agent 相比,这里的关键区别在于任务执行方式:传统 Agent 往往是端到端操作——用户制定一个 prompt,大语言模型 返回一个输出——而这种方式很少与人类的工作方式契合,AI 亦然。

在课程中,吴恩达表示:Agentic AI 通过将任务拆分为多个步骤,逐步推进,每一步都经过处理和优化,从而显著优于一次性输出答案的端到端 Agent。

就像我们开头提到的 GPT3.5 战胜 GPT-4 的例子。

因此,学习如何将复杂任务分解为步骤,并构建组件高效执行每一步,是一项复杂但至关重要的技能,这正决定了开发者能否在各种应用场景中构建高效的代理型工作流。

更进一步,对于端到端的 Agent,留给开发者优化流程的空间实际上非常有限。

我们无法通过设计和改进工作流来提升任务表现,只能依赖 prompt 的优化、模型能力的提升,甚至完全寄希望于模型本身。

而通过拆分组件、逐步优化,每个环节都可迭代改进,从而让系统持续进化,这正是 Agentic AI 的优势所在。

值得一提的是,当吴恩达首次提出 "Agentic" 这个术语,原本是为了描述基础应用开发中快速增长的重要趋势,但没想到市场营销人员将其广泛用作标签,使 Agentic AI 炒作迅速升温。

尽管如此,吴恩达表示,在实际应用中 Agentic 的方法论仍然发挥着实际价值,为开发者提供了可落地、可优化的路径。

在当下,除了成熟的代码 Agent 之外,基于步骤的 Agentic AI 仍有广阔的发展空间。

这为开发者探索更复杂、更智能的多步骤工作流提供了丰富机会,也体现了课程的核心理念:通过拆解任务、构建组件、逐步优化,让 AI 系统真正实现高效、可控的代理型流程。

参考链接

[ 1 ] https://x.com/AndrewYNg/status/1975614372799283423

[ 2 ] https://www.deeplearning.ai/courses/Agentic-ai/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情

企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与

一键关注 点亮星标

科技前沿进展每日见

相关标签