最近的 Agent 赛道,又让人兴奋起来了。
在近期 Manus 发布 1.5、OpenAI 发布 ChatGPT Atlas 后,昨晚,Flowith 也发布了其全新的 Agent 产品「Flowith OS」,并在硅星人会客厅举办了一场线下公测活动。


用户的热情不难理解——当行业还在讨论那些能写报告、编小游戏的 " 高级工具 " 时,一个能 " 看懂 " 用户屏幕、并 " 动手 " 执行任务的 Agent 终于出现了。
但更引起我们注意的,是 Flowith 给这个产品的命名:FlowithOS。
尽管目前它以一个独立的浏览器形态存在,但 Flowith 将其定位为全球首个为 Agent 原生设计的操作系统(Agentic Workspace)——不再是网页或插件,而是一个需要下载到你电脑上的独立应用。
简单来说,当你用自然语言下达一个指令后,它就能通过 " 代码 + 视觉 " 的方式理解你的屏幕,并自主思考和操作。它的 " 手 " 既能跨越多个网页完成点击、编辑、发送,也能通过调用终端打开你本地的软件,例如 Claude code。这也意味着 AI 操控电脑将可以不只局限于云端虚拟环境,也不再是随时等待人类接管的半自动产品,而是真正由 Agent 进行 " 端到端 " 的自主执行。
这种设计思路,在当下的 Agent 产品中显得格外激进。
从最近的 Manus 1.5 到 GPT Atlas,一个清晰的趋势是:大家都在争相为 AI 安上 " 手脚 ",推动它向 " 行动派 " 进化。但相比之下,FlowithOS 更彻底地把自己做成一个 " 给 Agent 使用的操作系统 "。
目前看来,这种激进也带来了实际的效果。在 Online-Mind2Web 的跑分中,Flowith OS 已经超过了 Altas。

FlowithOS 核心功能:执行、执行,还是执行
FlowithOS 想做的,是彻底让 Agent 接手任务的全流程,做跨平台、高自主性、可交互性的复杂工作。
它为智能体构建了一个能够持续进化的行动空间,其核心亮点包括:
一是跨越边界的任务交付: 它让 Agent 的行动不再局限于单一网页或应用。通过无限步骤的上下文理解,Agent 能够串联起完整的端到端工作流,直接替你写作、替你发布,将你的想法转化为真实成果。
二是网页理解能力:基于自研的 " 代码 + 视觉 " 双模态理解框架。该框架在 Web Agent 测试(Mind2Web)中登顶全球榜单,跑分超过了 OpenAI 最新发布的 ChatGPT Atlas,这也意味着 OS 拥有更强的思考能力、网页理解力与操作精度。
三是自主进化、自主执行: FlowithOS 不是用完即走的工具,而是一个能独立 " 上班 " 的数字员工,能够胜任高频交易监控、社媒账号运营等需要持续优化的动态任务。
当然,抛开 " 操作系统 " 和 " 自主进化 " 这些宏大概念,FlowithOS 的本质是通过自动化的降本增效。它在真实场景下的任务成功率有多高,它为用户节省的时间,是否多于花在学习、配置和补救失败任务上的时间 ...... 我们围绕这些问题展开了实测。
1. 基础交互与任务执行
打开 FlowithOS,首先是一个颇有设计感的简洁界面,中心是一个输入框。你可以在框中选择 Google 进行搜索,把它当成一个普通的浏览器来用;或者,你可以选择 Run Task,直接进入 Agent 模式。
同时,界面右下角的圆形按钮,也提供了一个快捷入口,让你随时唤醒 Agent 发布任务。


在 OS 执行的过程中,你可以随时点击 Pause 或双击页面暂停、进行接管,也可以随时以对话的形式,输入新的 prompt 调整 AI 接下来的进程。
理论说再多,不如直接上场景。
上周,Flowith 市场负责人拐子就在内测中尝试了让 OS 接管自己的小红书账号,自主创作并发布了一个帖子 "Ask anything",同时把回复评论的权限也完全交给了 Agent。

我们也用一个真实任务测试了它的能力。背景是,我们在杭州举办了一场小型的 IROS 会后派对,需要邀请小红书上对此感兴趣的 IROS 参会用户。这是一个非常繁琐、重复性极高的任务,完美契合了 AI 批量执行的场景。
结果是,当我将自己的账号 Earth 权限交给了 OS 后,它做到了 ...... 一部分。

简单版 Prompt:
你是 硅星人 的 AI 助手,在小红书上面搜索 2025 IROS 相关帖子,按时间线确保是今年的,并评论帖子,邀请他来参加我们在 23 号组织的 After party,可以看硅星人 pro 主页了解活动详情,语气活泼有趣一点。
因为只给出了模糊指令。在执行过程中,OS 的成功率大约在 30% 左右。它偶尔会 " 神游 ",比如刷着帖子摸鱼;偶尔会 " 犯迷糊 ",打开了帖子但找不到评论按钮;有时输入了文本却没有点击发布,就自己判定任务成功了。
不过,因为并非云电脑虚拟环节,用户也可以参与 AI 协作,比如,在 AI 找不到输入框的时候,我们滑动鼠标点开输入框,让 AI 学习这一路径。
详细版 Prompt ( 由 Claude + 人工优化 ) : 提供了非常清晰的步骤和规则。这次,OS 的成功率飙升至接近 100%。由于它的评论速度实在太快,而我们的派对席位有限,我不得不火速终止了它 " 狂热 "。
[ 背景 ] 你是我的 AI 助手,你的任务是在小红书平台上推广一场即将举行的活动。
[ 目标 ]
平台 : 小红书
活动 : 23 号的 IROS After Party
目标用户 : ( A ) 发布了关于 "2025 IROS" 帖子的博主 ( B ) 每一个回复了这些帖子的用户。
[ 核心文案格式 ] " 你好,我是硅星人 PRO 的 AI 助手,我们在 23 号包场组织了一个 After party,有兴趣参加吗,可以看硅星人 PRO 的小红书主页了解活动详情 [ 具体邀请可修改,模拟一个真诚有梗的人,而不是一个冰冷的机器 ] 。"
[ 执行流程 ( 自动化循环 ) ]
1、登录 : 登录小红书账号。
2、搜索 : 使用搜索关键词列表 : [ "2025 IROS", "IROS 杭州 ", "IROS 2025 杭州 ", " 智能机器人大会 杭州 " ] 。
3、筛选搜索结果:按 " 最新发布 " 排序,确保帖子是近期的。
遍历帖子 ( 循环 ) :
对于搜索结果中的每一个相关帖子,执行以下操作:
4、操作 A:评论博主 ( OP )
打开该帖子。
定位到主评论输入框。
输入 [ 文案 ] 。
点击 " 发送 "。
5、操作 B:评论所有回复者
在当前帖子下,打开评论区,并确保加载所有评论和回复(可能需要模拟 " 点击查看更多回复 ")。
遍历(For-Each Loop)评论区中的每一条评论(无论是一级评论还是二级回复):
If 该条评论的作者 不是 你自己:
点击该条评论的 " 回复 " 按钮。
在 @对方的输入框中,输入 [ 文案 ] ,文案按照格式,可调整。
完成所有回复的遍历后,返回搜索结果列表,打开下一个帖子,重复步骤 4。
这个任务场景具有极强的迁移性。任何需要批量联系他人、进行重复性网页操作的场景,理论上都可以交给 OS 来完成。
但现阶段,你仍然要以足够的耐心盯着 OS 不要拿你的账号肆意妄为,并忍受长时间的、有失败概率的任务过程。
除了这些严肃的工作,Flowith 还与我们分享了一个极具娱乐性的案例:让 OS 帮你打德州扑克,而且还赢钱了。
这年头,一个好的 Agent 真的可以自己出去赚钱养家了。目前这个 Prompt 已经被收录在 OS 的官方示范案例中,用户可以直接点击运行。只是我们很好奇,如果你的 OS 在牌桌上遇到了别人的 OS,到底谁能笑到最后?

2. Skills:沉淀可复用的 " 肌肉记忆 "
除了基础的产品逻辑,OS 还上线了一个关键功能:Skills。这与 Claude 有相似之处,更侧重于执行路径的沉淀。

更进一步,FlowithOS 团队会将用户高频使用、反馈良好的任务流程,通过训练固化为标准的 Skills,让所有用户的 Agent 在未来执行该任务时都具备极高的成功率。
在目前的 Skill 库中,OS 已经可以打开你的 Claude Code 页面来编写代码,也可以打开你的 terminal 进行操作了。同时,你也可以将自己调整好的 Skill 上传,未来或可进行社区化的分享和传播。
3. Memory 和 Knowledge Base:让 Agent 更懂你
除了 Skills,Memory(记忆)系统和 Knowledge Base(知识库)是让 Agent 变得 " 专属 " 的另外两大支柱。
Memory 系统会记住你访问过的网页、执行过的任务以及个人偏好。这与传统浏览器的历史记录似是而非,其记录的颗粒度要精细得多。这为 Agent 提供了丰富的个性化上下文,使其决策和行动都更贴近你的习惯。
而 Knowledge Base 则从 Flowith 主站延伸而来,允许你上传文档、链接等资料,构建属于自己的知识库。Agent 在执行任务时,会优先从这个知识库中寻找答案和背景信息,让它更懂你的工作领域和特定需求。
还记得上文提到的 OS 接管 " 拐子 " 小红书账号的案例吗?Agent 之所以知道要 @Dereck 来请权限,正是因为它从知识库中知道了谁是负责人。
总而言之,在多次实测中,我们发现 FlowithOS 对不同类型网页的适配程度存在一定差异。在 Twitter、小红书、微博等结构相对标准化的社交媒体平台上,它能相对准确地识别帖子内容、理解评论语境、甚至把握平台的 " 网感 " 来生成合适的回复。
然而,在淘宝、京东这类电商网站上,面对多重下拉菜单、动态加载的商品列表以及复杂的促销弹窗时,它偶尔会出现定位不准或操作失败的情况,对商品进行比价、对图文商品链接进行整理,表现还不足。
Flowith 对此解释道," 我们在此处对 Agent 使用了 periodic online reinforcement learning,随着用户更多使用,整个 OS 会变得更加聪明。"
" 产品目前仍处于公测阶段,所有功能均免费开放,公测期间的核心目标是收集用户在真实场景下的反馈和 Agent 的表现数据。这些宝贵的数据,将直接用于后续的 Agent 迭代和功能优化。"
FlowithOS 是一个 Browser Agent,更是一个给 Agent 使用的操作系统
从实测结果来看,FlowithOS 在产品形态和底层逻辑上,与市面上其他主流的 Agent 产品截然不同。要理解它的独特性,我们必须先明确它与另外两个代表性产品 Manus 1.5 和 Atlas 的区别。
相比之下,更侧重于编程能力的 Manus 1.5 ,核心思路更像是在产品内部构建一个闭环的、强大的能力集。例如,它强调通过 " 内置 " 工具(tool)和配套架构,让用户可以直接在产品内 " 一句话构建应用 ",将完成复杂任务所需的核心能力集成到自身。
而 Atlas 首先是一个浏览器,Agent 在其中是一个核心但可选的 " 模式 ",与常规浏览功能并存,它的重点在于从用户使用场景切入,为用户提供一个更完整的生态链路,为 Agent 提供一个更便捷的运行载体。
而 FlowithOS 将自己定义为操作系统,其浏览器界面仅仅是这个系统为 Agent 提供的 " 图形界面 "。与 Manus 的 " 内置集成 " 思路相反,FlowithOS 的核心是调度和编排外部生态的能力。
例如,在处理编程任务时,它并非自己构建一套编程工具,而是通过调用 Claude Code 等外部功能和生态来实现。
当我们把 FlowithOS 放置在更宏观的 AI 产品图景中进行审视时,会发现它所做的事情既有差异又有共识。
共识在于,无论是 OpenAI 的 Atlas、Manus 的 1.5,还是各类 AI 编程助手,都在不约而同地从 " 理解和生成 " 向 " 执行和自主 " 进化。AI 不再满足于作为一个知识问答或内容创作的工具,它必须进入人类的工作流,直接操作应用、完成任务,才能释放下一阶段的生产力价值。浏览器,作为连接人与互联网服务的最主要入口,自然成为了这场进化的核心战场。
其差异则在于,它可能是目前市面上第一个明确将自己定义为 "Agent 操作系统 ",而这决定了产品的进化路径。FlowithOS 的功能、交互设计,都是从 "Agent 如何更好地执行 " 这个第一性原理出发,而非 " 人类如何更方便地使用 "。
正如拐子所说:" 用户是否使用我们的 OS 作为浏览器其实无所谓,因为这个浏览器实际上是给 Agent 做操作系统用的,我们更希望用户打开 OS 是让 Agent 可以有更高权限的环境自主工作。"