
作者|江宇
编辑|漠影
智东西 6 月 15 日报道,近日,豆包全量上线了任务模式。打开应用后可以发现,顶部模型切换栏已经从原来的 " 快速、专家 " 两档模式,扩展为 " 快速、专家、任务 " 三档模式。

随即,豆包列出了一长串能力清单,其中包括产品设计与开发、文档创作、数据分析、研究整理、多媒体创作、自动化工具以及浏览器网页操作等多个方向。在回答的最后,豆包给出了一个颇为直接的定义:任务模式 = 端到端完成任务。

不过体验下来发现:豆包选择了一条和不少桌面 Agent 不太一样的路线。
一、豆包能 " 动手 " 帮我点咖啡了
最近,瑞幸上线了 My Coffee Skill,支持搜索门店、浏览商品、下单、查询订单状态等功能。于是我决定拿这个场景作为第一个测试。


这意味着至少在目前阶段,豆包的思路并不是先获取系统权限,再去完成任务,反而是优先通过 Skill 机制调用能力。
安装完成后,豆包提示需要配置瑞幸 MCP Token。这个 Token 可以直接在瑞幸 AI 开放平台获取。



豆包并没有报错,并且根据商品规则重新调整配置,再次确认订单内容。




既然已经完成了一次下单,我索性继续加大难度。我把一个咖啡爱好者 App 的需求直接扔给了豆包。
这个 App 需要能够记录每日咖啡、统计咖啡因摄入量、生成分享卡片,并支持查看长期数据趋势。
收到需求后,豆包直接进入任务执行状态。与普通聊天模式最大的区别在于,它会主动拆解任务,并实时展示当前执行进度。在此期间,用户可以选择追加信息,也能直接结束任务。


细看这份完整方案文档,豆包是按照一份正式产品文档的结构展开的。

比较有意思的是,这份文档最后还自动写上了版本号、日期和作者信息。作者一栏显示为 "SuperDoubaoAgent Product Team",有点像豆包给自己临时组了一个产品团队。

打开网页 Demo 后,一个手机模拟器直接出现在页面中央。



如果是传统开发流程,这时候通常需要重新修改代码、编译预览,再查看效果。不过在豆包这里,我直接进入了可视化编辑模式。


另一个比较细节的设计是版本管理。每次完成修改之后,系统都会自动生成新的版本记录。用户可以在 V1、V2 等多个版本之间自由切换。

做完基础 Demo 之后,我还给豆包追加了一个需求:为每一杯咖啡添加精美贴图。
收到需求后,豆包立马分析了贴图对于产品体验的影响,随后规划了贴图设计方案、页面替换方案以及后续渲染逻辑。随后,它又进一步拆分出贴图显示优化、页面渲染更新以及功能实现等多个子任务,并逐步推进。
完成修改之后,网页 Demo 中的咖啡记录与选择页面直接发生了变化。原本较为简单的文字被替换成了风格统一的咖啡插画,整体视觉丰富了不少。
与此同时,贴图的配色也延续了产品原本的咖色系设计,没有出现明显的风格割裂。


五、图片、文案、视频一起上,能调度更多工具
最后,我又加了一个更进一步的任务。豆包既然能把 App 做出来了,不如顺手借助其生图和生视频的能力,再生成一支宣传视频。
收到需求后,豆包开始自动规划任务。先调用生图工具生成宣传图,再匹配上广告文案,随后拆解镜头和分镜。

随后,豆包主动给出两种替代方案:一种是利用现有素材在剪映中快速制作简单视频;另一种则是保留完整视频脚本和分镜,等待后续重新生成。
虽然最终广告片没有成功产出,但整个过程中能够明显感觉到 Agent 与传统聊天机器人的区别。
写在最后:
任务模式下,豆包已经不只是回答问题,而是能够围绕一个目标任务,调用 Skill、连接 MCP,并协调代码、图片、视频等不同工具共同完成工作。
同时,豆包也选择了一条相对克制的路线。
至少从本次体验来看,无论是咖啡下单还是 App 开发,它都没有主动获取定位权限,也没有申请电脑控制权限或本地文件访问权限。相比一些强调 " 接管电脑 " 的桌面 Agent 产品,豆包在有限权限下,尽可能完成更多任务。
对于拥有庞大用户规模的产品来说,这条思路或许更容易落地。
从此次上线的任务模式来看,豆包显然已经不满足于继续做一个聊天机器人,也开始向桌面 Agent 方向迈进。而这条赛道上已经站着 Codex、Claude Code,以及积累了一定 AI 办公场景经验的腾讯 WorkBuddy。
对于豆包来说,任务模式或许只是第一步。未来,豆包究竟能够接管多少工作,又会以什么方式接管,仍值得持续观察。