豆包会做任务了，成功帮我薅了瑞幸的羊毛

AI 应用风向标（公众号：ZhidxcomAI）

作者｜江宇

编辑｜漠影

智东西 6 月 15 日报道，近日，豆包全量上线了任务模式。打开应用后可以发现，顶部模型切换栏已经从原来的 " 快速、专家 " 两档模式，扩展为 " 快速、专家、任务 " 三档模式。

为了弄清楚任务模式到底能做什么，智东西第一时间进行了体验。我在任务模式下，直接向豆包提问：" 你能完成哪些任务？"

随即，豆包列出了一长串能力清单，其中包括产品设计与开发、文档创作、数据分析、研究整理、多媒体创作、自动化工具以及浏览器网页操作等多个方向。在回答的最后，豆包给出了一个颇为直接的定义：任务模式 = 端到端完成任务。

可见，豆包此次上线的任务模式，也已经不再只是传统意义上的聊天机器人，而更接近腾讯 Workbuddy、月之暗面 Kimi Work 这类桌面智能体产品。

不过体验下来发现：豆包选择了一条和不少桌面 Agent 不太一样的路线。

一、豆包能 " 动手 " 帮我点咖啡了

最近，瑞幸上线了 My Coffee Skill，支持搜索门店、浏览商品、下单、查询订单状态等功能。于是我决定拿这个场景作为第一个测试。

我直接向豆包客户端发送了 My Coffee Skill 的安装地址。几秒钟后，豆包开始安装 My Coffee Skill。

整个过程中，豆包没有弹出任何系统级权限申请窗口。既没有要求访问电脑，也没有要求读取本地文件，更没有申请浏览器控制权限。安装信息显示，这个 Skill 会被部署到独立运行目录中。

这意味着至少在目前阶段，豆包的思路并不是先获取系统权限，再去完成任务，反而是优先通过 Skill 机制调用能力。

安装完成后，豆包提示需要配置瑞幸 MCP Token。这个 Token 可以直接在瑞幸 AI 开放平台获取。

配置完成后，豆包还专门询问是否需要保存 Token。保存之后，后续使用 Skill 时便无需重复配置。

随后豆包开始搜索门店，这里出现了一个比较有意思的现象。它并没有主动获取我的实时位置，而是先整理出门店列表，让我自行指定去哪一家门店取餐。换句话说，即便是在下单场景里，豆包依然没有获得定位权限。

确认门店后，它开始搜索商品并生成订单。在此期间，我故意给出一个相对模糊的需求——少冰。

豆包并没有报错，并且根据商品规则重新调整配置，再次确认订单内容。

最终生成订单后，我又打开瑞幸微信小程序进行了对照。但是无论是商品价格还是优惠券使用情况，两边均不一致，甚至在豆包下单还便宜了 3 角钱。

完成支付后，豆包继续跟进订单状态，并成功返回取餐码。

几分钟后，我顺利拿到了这杯咖啡。

二、买完咖啡之后，我决定让它顺手做个 App

既然已经完成了一次下单，我索性继续加大难度。我把一个咖啡爱好者 App 的需求直接扔给了豆包。

这个 App 需要能够记录每日咖啡、统计咖啡因摄入量、生成分享卡片，并支持查看长期数据趋势。

收到需求后，豆包直接进入任务执行状态。与普通聊天模式最大的区别在于，它会主动拆解任务，并实时展示当前执行进度。在此期间，用户可以选择追加信息，也能直接结束任务。

随后，豆包给出了一整套交付结果。除了产品方案和 UI 设计稿之外，它还生成了完整的 SwiftUI 代码，以及一个能够直接运行的网页 Demo。

产品方案与 SwiftUI 代码

细看这份完整方案文档，豆包是按照一份正式产品文档的结构展开的。

文档开头就先给出产品定位，随后，豆包继续拆出了产品概述、市场定位、用户画像、核心功能、页面流程与交互设计等内容。其中，还包括：核心用户群体、用户使用场景、贴纸式记录系统、咖啡因智能统计、时间流手账首页、分享创意工坊等更细分的模块。

比较有意思的是，这份文档最后还自动写上了版本号、日期和作者信息。作者一栏显示为 "SuperDoubaoAgent Product Team"，有点像豆包给自己临时组了一个产品团队。

同时，这份文档出现在一个可继续编辑的文档编辑器里，用户可以继续手动修改内容，也可以直接调用 AI 继续优化。

打开网页 Demo 后，一个手机模拟器直接出现在页面中央。

首页展示当天咖啡因摄入量；底部中央按钮用于记录咖啡；

统计页面展示趋势变化；分享页面则负责生成分享卡片。

我也很快发现了一个问题。在初始版本里，底部导航栏中央用于添加咖啡记录的 "+" 按钮采用了悬浮设计，但位置明显高于两侧导航按钮，看起来并不协调。

如果是传统开发流程，这时候通常需要重新修改代码、编译预览，再查看效果。不过在豆包这里，我直接进入了可视化编辑模式。

选中按钮后，我输入了一句非常简单的需求：" 与下方其他按钮水平对齐。" 随后豆包开始调整页面布局，并重新生成预览。

与很多 AI 工具依然围绕代码展开不同，豆包这里已经开始尝试把 " 设计修改 " 从代码层抽离出来。对于不会写代码的用户来说，直接描述需求，可能比修改代码更符合直觉。

另一个比较细节的设计是版本管理。每次完成修改之后，系统都会自动生成新的版本记录。用户可以在 V1、V2 等多个版本之间自由切换。

三、几个开发小细节，让代码小白狂喜

做完基础 Demo 之后，我还给豆包追加了一个需求：为每一杯咖啡添加精美贴图。

收到需求后，豆包立马分析了贴图对于产品体验的影响，随后规划了贴图设计方案、页面替换方案以及后续渲染逻辑。随后，它又进一步拆分出贴图显示优化、页面渲染更新以及功能实现等多个子任务，并逐步推进。

完成修改之后，网页 Demo 中的咖啡记录与选择页面直接发生了变化。原本较为简单的文字被替换成了风格统一的咖啡插画，整体视觉丰富了不少。

与此同时，贴图的配色也延续了产品原本的咖色系设计，没有出现明显的风格割裂。

完成贴图之后，我又继续追问：还能增加什么功能？这一次，豆包直接给出了 25+ 个功能创意。

既包括咖啡因摄入预警、年度咖啡报告、咖啡地图，也包括咖啡豆收藏、好友打卡、冲煮记录等偏社区方向的功能。对于缺乏产品经验的用户来说，相当于多了一位能够持续提供创意的产品经理。

五、图片、文案、视频一起上，能调度更多工具

最后，我又加了一个更进一步的任务。豆包既然能把 App 做出来了，不如顺手借助其生图和生视频的能力，再生成一支宣传视频。

收到需求后，豆包开始自动规划任务。先调用生图工具生成宣传图，再匹配上广告文案，随后拆解镜头和分镜。

不过在最终的视频生成环节，工具出现了异常。最终，豆包判断当前更可能是视频工具服务异常。

随后，豆包主动给出两种替代方案：一种是利用现有素材在剪映中快速制作简单视频；另一种则是保留完整视频脚本和分镜，等待后续重新生成。

虽然最终广告片没有成功产出，但整个过程中能够明显感觉到 Agent 与传统聊天机器人的区别。

写在最后：

任务模式下，豆包已经不只是回答问题，而是能够围绕一个目标任务，调用 Skill、连接 MCP，并协调代码、图片、视频等不同工具共同完成工作。

同时，豆包也选择了一条相对克制的路线。

至少从本次体验来看，无论是咖啡下单还是 App 开发，它都没有主动获取定位权限，也没有申请电脑控制权限或本地文件访问权限。相比一些强调 " 接管电脑 " 的桌面 Agent 产品，豆包在有限权限下，尽可能完成更多任务。

对于拥有庞大用户规模的产品来说，这条思路或许更容易落地。

从此次上线的任务模式来看，豆包显然已经不满足于继续做一个聊天机器人，也开始向桌面 Agent 方向迈进。而这条赛道上已经站着 Codex、Claude Code，以及积累了一定 AI 办公场景经验的腾讯 WorkBuddy。

对于豆包来说，任务模式或许只是第一步。未来，豆包究竟能够接管多少工作，又会以什么方式接管，仍值得持续观察。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

豆包会做任务了，成功帮我薅了瑞幸的羊毛

宙世代

一起剪

相关阅读

鸿蒙6杀入大众产品线，手机行业的「参数内卷」该到头了

最新评论

智东西

热门推荐

企业资讯