关于ZAKER 合作
硅星人 12小时前

跑分超过 OpenAI Atlas,Flowith 昨晚发了一个最激进的 Agent

最近的 Agent 赛道,又让人兴奋起来了。

在近期 Manus 发布 1.5、OpenAI 发布 ChatGPT Atlas 后,昨晚,Flowith 也发布了其全新的 Agent 产品「Flowith OS」,并在硅星人会客厅举办了一场线下公测活动。

活动刚结束,社群就活跃起来:有人让 OS 打开豆瓣给热门电影打分,有人则干脆让它接管了自己的小红书账号,实现了内容的全自动发布。

来自社群实测

用户的热情不难理解——当行业还在讨论那些能写报告、编小游戏的 " 高级工具 " 时,一个能 " 看懂 " 用户屏幕、并 " 动手 " 执行任务的 Agent 终于出现了。

但更引起我们注意的,是 Flowith 给这个产品的命名:FlowithOS

尽管目前它以一个独立的浏览器形态存在,但 Flowith 将其定位为全球首个为 Agent 原生设计的操作系统(Agentic Workspace)——不再是网页或插件,而是一个需要下载到你电脑上的独立应用。

简单来说,当你用自然语言下达一个指令后,它就能通过 " 代码 + 视觉 " 的方式理解你的屏幕,并自主思考和操作。它的 " 手 " 既能跨越多个网页完成点击、编辑、发送,也能通过调用终端打开你本地的软件,例如 Claude code。这也意味着 AI 操控电脑将可以不只局限于云端虚拟环境,也不再是随时等待人类接管的半自动产品,而是真正由 Agent 进行 " 端到端 " 的自主执行。

这种设计思路,在当下的 Agent 产品中显得格外激进。

从最近的 Manus 1.5 到 GPT Atlas,一个清晰的趋势是:大家都在争相为 AI 安上 " 手脚 ",推动它向 " 行动派 " 进化。但相比之下,FlowithOS 更彻底地把自己做成一个 " 给 Agent 使用的操作系统 "。

目前看来,这种激进也带来了实际的效果。在 Online-Mind2Web 的跑分中,Flowith OS 已经超过了 Altas。

我们也第一时间测试了 FlowithOS,并和他们聊了聊,试图搞清楚:为什么在这个时间点,用这样一种方式入局?以及,OS 和其他 Agent、AI 浏览器产品,有什么不一样?

FlowithOS 核心功能:执行、执行,还是执行

FlowithOS 想做的,是彻底让 Agent 接手任务的全流程,做跨平台、高自主性、可交互性的复杂工作。

它为智能体构建了一个能够持续进化的行动空间,其核心亮点包括:

一是跨越边界的任务交付: 它让 Agent 的行动不再局限于单一网页或应用。通过无限步骤的上下文理解,Agent 能够串联起完整的端到端工作流,直接替你写作、替你发布,将你的想法转化为真实成果。

二是网页理解能力:基于自研的 " 代码 + 视觉 " 双模态理解框架。该框架在 Web Agent 测试(Mind2Web)中登顶全球榜单,跑分超过了 OpenAI 最新发布的 ChatGPT Atlas,这也意味着 OS 拥有更强的思考能力、网页理解力与操作精度。

三是自主进化、自主执行: FlowithOS 不是用完即走的工具,而是一个能独立 " 上班 " 的数字员工,能够胜任高频交易监控、社媒账号运营等需要持续优化的动态任务。

当然,抛开 " 操作系统 " 和 " 自主进化 " 这些宏大概念,FlowithOS 的本质是通过自动化的降本增效。它在真实场景下的任务成功率有多高,它为用户节省的时间,是否多于花在学习、配置和补救失败任务上的时间 ...... 我们围绕这些问题展开了实测。

1. 基础交互与任务执行

打开 FlowithOS,首先是一个颇有设计感的简洁界面,中心是一个输入框。你可以在框中选择 Google 进行搜索,把它当成一个普通的浏览器来用;或者,你可以选择 Run Task,直接进入 Agent 模式。

同时,界面右下角的圆形按钮,也提供了一个快捷入口,让你随时唤醒 Agent 发布任务。

为了降低使用门槛,FlowithOS 的输入框还具备自动补全和优化 Prompt 的功能,帮助用户更清晰、更高效地发布任务指令。

一旦你提出任务,Agent 会在界面右侧实时展示它的 " 思考过程 " ——分析任务、拆解步骤、执行动作。同时,它会在左侧的标签页(Tab)中自己打开新的页面,进行跨页面的搜索、信息整合与操作。

在 OS 执行的过程中,你可以随时点击 Pause 或双击页面暂停、进行接管,也可以随时以对话的形式,输入新的 prompt 调整 AI 接下来的进程。

理论说再多,不如直接上场景。

上周,Flowith 市场负责人拐子就在内测中尝试了让 OS 接管自己的小红书账号,自主创作并发布了一个帖子 "Ask anything",同时把回复评论的权限也完全交给了 Agent。

尽管这个 Agent 时而会冒出一些略显 " 中二 " 的赛博人机回复,但时而又会有让人眼前一亮的评论。最经典的莫过于下面这条,当有人问及 " 能不能突然给我打两千块 ",Agent 在评论区直接 @了 CEO Derek,申请开通转账权限,显然是 " 学习 " 到了人类世界的组织架构。

我们也用一个真实任务测试了它的能力。背景是,我们在杭州举办了一场小型的 IROS 会后派对,需要邀请小红书上对此感兴趣的 IROS 参会用户。这是一个非常繁琐、重复性极高的任务,完美契合了 AI 批量执行的场景。

结果是,当我将自己的账号 Earth 权限交给了 OS 后,它做到了 ...... 一部分。

在这个过程中,我们尝试了两版 Prompt:

简单版 Prompt:

你是 硅星人 的 AI 助手,在小红书上面搜索 2025 IROS 相关帖子,按时间线确保是今年的,并评论帖子,邀请他来参加我们在 23 号组织的 After party,可以看硅星人 pro 主页了解活动详情,语气活泼有趣一点。

因为只给出了模糊指令。在执行过程中,OS 的成功率大约在 30% 左右。它偶尔会 " 神游 ",比如刷着帖子摸鱼;偶尔会 " 犯迷糊 ",打开了帖子但找不到评论按钮;有时输入了文本却没有点击发布,就自己判定任务成功了。

不过,因为并非云电脑虚拟环节,用户也可以参与 AI 协作,比如,在 AI 找不到输入框的时候,我们滑动鼠标点开输入框,让 AI 学习这一路径。

详细版 Prompt ( 由 Claude + 人工优化 ) : 提供了非常清晰的步骤和规则。这次,OS 的成功率飙升至接近 100%。由于它的评论速度实在太快,而我们的派对席位有限,我不得不火速终止了它 " 狂热 "。

[ 背景 ] 你是我的 AI 助手,你的任务是在小红书平台上推广一场即将举行的活动。

[ 目标 ]

平台 : 小红书

活动 : 23 号的 IROS After Party

目标用户 : ( A ) 发布了关于 "2025 IROS" 帖子的博主 ( B ) 每一个回复了这些帖子的用户。

[ 核心文案格式 ] " 你好,我是硅星人 PRO 的 AI 助手,我们在 23 号包场组织了一个 After party,有兴趣参加吗,可以看硅星人 PRO 的小红书主页了解活动详情 [ 具体邀请可修改,模拟一个真诚有梗的人,而不是一个冰冷的机器 ] 。"

[ 执行流程 ( 自动化循环 ) ]

1、登录 : 登录小红书账号。

2、搜索 : 使用搜索关键词列表 : [ "2025 IROS", "IROS 杭州 ", "IROS 2025 杭州 ", " 智能机器人大会 杭州 " ] 。

3、筛选搜索结果:按 " 最新发布 " 排序,确保帖子是近期的。

遍历帖子 ( 循环 ) :

对于搜索结果中的每一个相关帖子,执行以下操作:

4、操作 A:评论博主 ( OP )

打开该帖子。

定位到主评论输入框。

输入 [ 文案 ] 。

点击 " 发送 "。

5、操作 B:评论所有回复者

在当前帖子下,打开评论区,并确保加载所有评论和回复(可能需要模拟 " 点击查看更多回复 ")。

遍历(For-Each Loop)评论区中的每一条评论(无论是一级评论还是二级回复):

If 该条评论的作者 不是 你自己:

点击该条评论的 " 回复 " 按钮。

在 @对方的输入框中,输入 [ 文案 ] ,文案按照格式,可调整。

完成所有回复的遍历后,返回搜索结果列表,打开下一个帖子,重复步骤 4。

这个任务场景具有极强的迁移性。任何需要批量联系他人、进行重复性网页操作的场景,理论上都可以交给 OS 来完成。

但现阶段,你仍然要以足够的耐心盯着 OS 不要拿你的账号肆意妄为,并忍受长时间的、有失败概率的任务过程。

除了这些严肃的工作,Flowith 还与我们分享了一个极具娱乐性的案例:让 OS 帮你打德州扑克,而且还赢钱了。

这年头,一个好的 Agent 真的可以自己出去赚钱养家了。目前这个 Prompt 已经被收录在 OS 的官方示范案例中,用户可以直接点击运行。只是我们很好奇,如果你的 OS 在牌桌上遇到了别人的 OS,到底谁能笑到最后?

当然,除了娱乐和批量任务,由于 Flowith 主站原本就擅长的深度研究领域,在沿用了 Neo 技术架构 + 真实的执行环境后,OS 也能够阅读更多的内容、更好地理解图文信息、进行跨页面浏览,从而给出更详尽的报告了。

2. Skills:沉淀可复用的 " 肌肉记忆 "

除了基础的产品逻辑,OS 还上线了一个关键功能:Skills。这与 Claude 有相似之处,更侧重于执行路径的沉淀。

当一个 Agent 第一次成功完成某个复杂任务时,比如 " 在小红书上筛选特定风格的商品并加入购物车 ",它可以将这个任务的最优执行路径记录下来,形成一个可复用的 "Skill"。由此,下次当你或其他人需要执行类似任务时,Agent 就可以直接调用这个已经验证过的 " 肌肉记忆 "。

更进一步,FlowithOS 团队会将用户高频使用、反馈良好的任务流程,通过训练固化为标准的 Skills,让所有用户的 Agent 在未来执行该任务时都具备极高的成功率。

在目前的 Skill 库中,OS 已经可以打开你的 Claude Code 页面来编写代码,也可以打开你的 terminal 进行操作了。同时,你也可以将自己调整好的 Skill 上传,未来或可进行社区化的分享和传播。

3. Memory 和 Knowledge Base:让 Agent 更懂你

除了 Skills,Memory(记忆)系统和 Knowledge Base(知识库)是让 Agent 变得 " 专属 " 的另外两大支柱。

Memory 系统会记住你访问过的网页、执行过的任务以及个人偏好。这与传统浏览器的历史记录似是而非,其记录的颗粒度要精细得多。这为 Agent 提供了丰富的个性化上下文,使其决策和行动都更贴近你的习惯。

而 Knowledge Base 则从 Flowith 主站延伸而来,允许你上传文档、链接等资料,构建属于自己的知识库。Agent 在执行任务时,会优先从这个知识库中寻找答案和背景信息,让它更懂你的工作领域和特定需求。

还记得上文提到的 OS 接管 " 拐子 " 小红书账号的案例吗?Agent 之所以知道要 @Dereck 来请权限,正是因为它从知识库中知道了谁是负责人。

总而言之,在多次实测中,我们发现 FlowithOS 对不同类型网页的适配程度存在一定差异。在 Twitter、小红书、微博等结构相对标准化的社交媒体平台上,它能相对准确地识别帖子内容、理解评论语境、甚至把握平台的 " 网感 " 来生成合适的回复。

然而,在淘宝、京东这类电商网站上,面对多重下拉菜单、动态加载的商品列表以及复杂的促销弹窗时,它偶尔会出现定位不准或操作失败的情况,对商品进行比价、对图文商品链接进行整理,表现还不足。

Flowith 对此解释道," 我们在此处对 Agent 使用了 periodic online reinforcement learning,随着用户更多使用,整个 OS 会变得更加聪明。"

" 产品目前仍处于公测阶段,所有功能均免费开放,公测期间的核心目标是收集用户在真实场景下的反馈和 Agent 的表现数据。这些宝贵的数据,将直接用于后续的 Agent 迭代和功能优化。"

FlowithOS 是一个 Browser Agent,更是一个给 Agent 使用的操作系统

从实测结果来看,FlowithOS 在产品形态和底层逻辑上,与市面上其他主流的 Agent 产品截然不同。要理解它的独特性,我们必须先明确它与另外两个代表性产品 Manus 1.5 和 Atlas 的区别。

相比之下,更侧重于编程能力的 Manus 1.5 ,核心思路更像是在产品内部构建一个闭环的、强大的能力集。例如,它强调通过 " 内置 " 工具(tool)和配套架构,让用户可以直接在产品内 " 一句话构建应用 ",将完成复杂任务所需的核心能力集成到自身。

而 Atlas 首先是一个浏览器,Agent 在其中是一个核心但可选的 " 模式 ",与常规浏览功能并存,它的重点在于从用户使用场景切入,为用户提供一个更完整的生态链路,为 Agent 提供一个更便捷的运行载体。

而 FlowithOS 将自己定义为操作系统,其浏览器界面仅仅是这个系统为 Agent 提供的 " 图形界面 "。与 Manus 的 " 内置集成 " 思路相反,FlowithOS 的核心是调度和编排外部生态的能力。

例如,在处理编程任务时,它并非自己构建一套编程工具,而是通过调用 Claude Code 等外部功能和生态来实现。

当我们把 FlowithOS 放置在更宏观的 AI 产品图景中进行审视时,会发现它所做的事情既有差异又有共识。

共识在于,无论是 OpenAI 的 Atlas、Manus 的 1.5,还是各类 AI 编程助手,都在不约而同地从 " 理解和生成 " 向 " 执行和自主 " 进化。AI 不再满足于作为一个知识问答或内容创作的工具,它必须进入人类的工作流,直接操作应用、完成任务,才能释放下一阶段的生产力价值。浏览器,作为连接人与互联网服务的最主要入口,自然成为了这场进化的核心战场。

其差异则在于,它可能是目前市面上第一个明确将自己定义为 "Agent 操作系统 ",而这决定了产品的进化路径。FlowithOS 的功能、交互设计,都是从 "Agent 如何更好地执行 " 这个第一性原理出发,而非 " 人类如何更方便地使用 "。

正如拐子所说:" 用户是否使用我们的 OS 作为浏览器其实无所谓,因为这个浏览器实际上是给 Agent 做操作系统用的,我们更希望用户打开 OS 是让 Agent 可以有更高权限的环境自主工作。"

相关标签
硅星人

硅星人

硅是创造未来的基础,欢迎登陆硅星球。

订阅

觉得文章不错,微信扫描分享好友

扫码分享