字节开源 GUI Agent 登顶 GitHub 热榜，豆包手机核心技术突破 26k Star

GitHub 最新热榜榜首，来自字节。

这波自研硬核技术不是别的——

正是豆包手机的核心支撑，GUI Agent 模型UI-TARS。

力压 OpenAI 官方 Skills，开源登顶榜首，突破 26k Star！

UI-TARS 的核心是个多模态 AI 智能体，你只要通过自然语言指令——

也就是说句人话，就能让它自己点鼠标、敲键盘、拖动滚动、翻页浏览，在浏览器和各种软件里帮你完成一整套复杂操作。

主要包含了 Agent TARS 和 UI-TARS-desktop 两个项目。

Agent TARS 支持一键式开箱即用的 CLI，可以在有界面的 Web UI 环境执行，也能在无界面的服务器环境运行；

UI-TARS-desktop 则是一个桌面应用程序，主要帮你操作本地电脑和浏览器。

纯视觉驱动

UI-TARS 这种 GUI Agent 的核心逻辑其实就是五个字——纯视觉驱动。

纯视觉有啥特点呢？

从传统 RPA 这类自动化工具来看，它们要想干活儿就得去扒复杂的网页源码、记控件编号，而且一旦这些界面稍微改一点，脚本就直接报废了。

纯视觉就是说，靠内置的视觉大模型，AI 就能直接像人眼一样观察屏幕。

不管软件有没有开放 API、不管界面有多复杂，只要你能看清菜单在哪、按钮在哪，它就也能，然后帮你操作。

如果有朋友想体验，部署起来也非常简单，只需要三步。

第一步，检查有没有安装Node.js和Chrome，没安装 Node.js 的话，要安装一个 >=22 的版本。

检查可以用如下命令：

node -v

如果没有还没有安装，可以用 nvm 先安装一下：

# Install Node.js LTS

nvm install --lts

# Switch to Node.js LTS

nvm use --lts

第二步，安装 Agent TARS。

最新版：

npm install @agent-tars/cli@latest -g

公测版：

npm install @agent-tars/cli@next -g

第三步，选择模型，需要 API，当前 Agent TARS 可兼容 Seed1.5-VL、claude-3.7-sonnet 和 gpt-4o。

agent-tars

--provider volcengine

--model doubao-1-5-thinking-vision-pro-250428

--apiKey {apiKey}

或

agent-tars

--provider anthropic

--model claude-3-7-sonnet-latest

--apiKey {apiKey}

或

agent-tars

--provider openai

--model gpt-4o

--apiKey {apiKey}

选完模型后，出现如下界面就表示部署完成啦！

然后我们点击上面框选的链接，即可打开 Web 用户界面。

接下来就可以对它发！号！施！令！了。

豆包手机虽然一时成为了现象级的爆款，电脑版现在登顶了开源榜首，但这项技术其实早在一年前就开始布局了。

UI-TARS 的核心目标是让 Agent 真正具备感知、动作、推理、记忆四大能力。

2025 年 1 月和清华合作开源，成为国产纯视觉 GUI Agent 中首个在权威基准测试对标并超越 GPT-4o 的项目。

接着它就开始了一路狂飙进化。

初代凭借 600 万高质量教程数据注入的深度思考能力，以及精准的统一动作空间，让 AI 像人类一样看懂并操作界面，在多项 SOTA 榜单上插旗。

短短 3 个月后，又迎来了 UI-TARS-1.5。

让 Agent 在动手前先多想几步，通过 Inference-time Scaling 预判后果，尤其在 GUI 定位任务上刷新了行业纪录。

到了 9 月，UI-TARS-2 的出现彻底将能力拉满，成为豆包手机的底层技术。

它针对数据瓶颈、多轮 RL 不稳、纯 GUI 局限、环境乱七八糟四大痛点，通过 " 数据飞轮 " 让模型和数据互相喂养进化。

不再局限于单纯的点击与滑动，而是打通了文件系统与沙盒平台，将浏览器、命令行、工具调用全量整合。

几轮迭代下来，UI-TARS 已经成为最火的开源多模态 Agent 之一。

走 " 前门 " 的 GUI Agent

说到 Agent、GUI Agent，就在几天前，理想汽车 CEO 李想的一条朋友圈也在科技圈引起关注。

他指出 2025 年最具突破性的三个现象级产品分别是 Claude Code、豆包手机、Manus；

而 2026 年第一个月就出现了三个现象级的产品：OpenClaw、MoltBook、Chrome Gemini。

可以说，被点名的 6 个产品，有 5 个都和 Agent 直接相关，甚至有 3 个都是 GUI Agent。

（如果把 Claude Code 看作 Coding Agent，也可以说是 6 个……）

豆包手机：手机里的 GUI Agent，直接让 AI 像人一样看屏、点击、切换 APP；

OpenClaw：电脑里的 GUI Agent，可以操作应用程序、管理文件、通过通讯工具接受指令执行复杂任务；

Chrome Gemini：浏览器里的 GUI Agent，模拟人类完成网页跳转、信息提取、表单填写等操作。

这三款产品的底层逻辑完全一致，都是纯视觉驱动的端侧交互执行路线。

在输入上，不读取 APP/ 网页 / 软件内部的空间 ID、源码、私有接口等，统一截取屏幕像素图像作为唯一输入，靠多模态视觉模型识别界面元素；

在执行上，不调用 API 完成功能，直接模拟人的交互行为进行点击、滑动、窗口切换，和真人操作的系统入口完全一致；

在兼容逻辑上，不管目标应用是否开放 API、是否老旧闭源、是否加密，只要屏幕能显示、人能操作，它就能执行。

再说说另外两个。

Manus 是云端全自主通用 Agent，不靠纯视觉模拟界面操作，优先调用 API 与工具链自主拆解复杂任务，在云端沙箱完成分析、处理、生成全流程，直接交付最终成果，可以说是专注复杂任务闭环的数字员工。

MoltBook 则是非执行类 Agent 载体，不操作界面、不调用 API 完成实用任务，而是让各类 Agent 自主发帖、互动、产生内容，是不带物理操作，纯决策层的自主 Agent 行为。

可以说，这几个产品看似各有领域，却共同指向一个核心问题——

怎么让 AI 真正 " 动手 " 帮人类干活？

GUI Agent 们选择 " 走前门 "，直接看屏模拟操作，突破封闭生态的壁垒；

也有的靠聪明规划和工具链闭环来交付成果；

甚至有的把 Agent 们推向自己的世界，放大 AI 之间的连接。

于是李想在两天后又发了一条有意思的观点：

原本以为 Agent 这类 AI 工具会缩小人与人之间的能力差距，实际上却是十倍、百倍地放大了差距。

GitHub 链接：https://github.com/bytedance/UI-TARS-desktop

— 欢迎 AI 产品从业者共建 —

「AI 产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库，旨在成为 AI 行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。

一键关注点亮星标

科技前沿进展每日见

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

字节开源 GUI Agent 登顶 GitHub 热榜，豆包手机核心技术突破 26k Star

宙世代

一起剪

相关阅读

从平价MacBook到iPhone 17e，苹果多款春季新品攻势揭幕

字节又一款AI产品火了

苹果iPhone 18 Pro将搭载两项新技术：支持可变光圈

千问官宣易烊千玺为品牌全球代言人 领跑AI购物新时代

历史性时刻将至：苹果CEO库克透露50周年庆祝计划

LGA 1851短命！Intel下一代Z990、Z970主板曝光：UItra 400S首发 要换1954接口

正浩、OPPO前高管创业AI智能运动手表，天使轮估值1亿美金

程序猿、白领都靠边！黄仁勋：以后敲代码只是打字 技术人才远不如业务吃香

马斯克：我已将重心转移到在月球建造城市 10年内有望实现

全球首发高通骁龙8 Elite Gen6 Pro！小米18已在测试中

中国AI？美国AI？

一公司错把400亿美元比特币发给用户：有人砸盘、变现、跑路

HP EliteBook X G1i：这台 AI PC 重新定义什么是「办公神器」

唯一1000W显卡BIOS！微星RTX 5090闪电BIOS流出：非微星卡也能用

暴利！iPhone 17 Pro Max电池成本不足百元：苹果售后10倍收费

最新评论

量子位

热门推荐

千问官宣易烊千玺为品牌全球代言人领跑AI购物新时代

LGA 1851短命！Intel下一代Z990、Z970主板曝光：UItra 400S首发要换1954接口

程序猿、白领都靠边！黄仁勋：以后敲代码只是打字技术人才远不如业务吃香