字节发布通用游戏智能体！5000 亿 token 训练，用鼠标键盘吊打 GPT-5！

用鼠标和键盘打游戏的智能体，这就来了！

它不仅能在《我的世界》中和普通玩家一较高下。

还能玩《神庙逃亡》、《星露谷》，甚至可以在未见过的 3D 网页游戏中实现零样本迁移。

而这，都是由字节 seed团队打造的通用型游戏智能体——Game-TARS完成的。

Game-TARS 基于统一、可扩展的键盘—鼠标动作空间训练，可在操作系统、网页与模拟环境中进行大规模预训练。

依托超5000亿标注量级的多模态训练数据，结合稀疏推理（Sparse-Thinking）与衰减持续损失（decaying continual loss），大幅提升了智能体的可扩展性和泛化性。

在 FPS、开放世界、WEB 游戏等任务中，它的表现超越了GPT-5、Gemini-2.5-Pro、Claude-4-Sonnet。

这是怎么做到的？

像人一样用键盘和鼠标打游戏

Game-TARS的核心创新在于，让智能体不再 " 调用函数打游戏 "，而是像人一样用键盘和鼠标操作。

也就是说，它不只是简单地执行指令，而是真正通过模拟人类操作的方式完成游戏中的每一个动作。

相比之下，传统智能体通常依赖为特定环境定制的动作集：

在 MCP 或 Code 层，它们可以直接调用 Search ( query ) 完成搜索，无需打开界面或点击按钮。

在 GUI 层则执行封装好的系统动作，如 " 双击 " 或 " 按下热键 "。

这些方式虽然高效，却缺乏通用性。一旦换个操作系统或应用环境，智能体就束手无策。

为解决这个问题，Game-TARS 专注于最底层的Human Actions（人类动作）：

mouseMove ( dx, dy ) ：鼠标相对移动，包括 x 轴和 y 轴。

mouseClick ( buttons ) ：鼠标点击，如左键、右键或中键。

keyPress ( xkeys ) ：键盘按键，包括单个按键和按键组合。

这种设计使智能体的动作指令集与任何特定应用或操作系统解耦，实现了与人类用户物理交互方式的直接对齐——

即Human-Native Interaction（人类自然交互）。

由此，Game-TARS 定义了一个可扩展、统一的动作空间，让智能体告别高层级指令，直接动手 " 玩 "，极大地提高了可扩展性和泛化性。

训练过程

与传统游戏机器人或模块化人工智能不同，Game-TARS 将视觉感知、策略推理、动作执行和长期记忆整合到一个视觉语言模型（VLM）中。

智能体无需针对每款游戏编写特定代码或规则，就能自主学习操作，并在各种游戏中完成任务。

为实现这一点，Game-TARS 将该智能体构建为一个自回归的、参数化的策略，并利用统一的键盘—鼠标动作空间进行训练，包括持续预训练和后训练两个阶段，

在预训练阶段，团队采用的ReAct范式，结合稀疏推理（Sparse Thinking）——只在关键决策点交错进行推理和行动，以模拟人类认知模式。

具体做法包括：

离线思维链 + 在线 " 边做边说 "（Think-Aloud）：标注者在执行任务时，通过音频实时表达思考，生成原生、即时推理的 ReAct 序列。

多模态同步采集：系统并行录制屏幕帧、鼠标键盘输入及音频，然后通过 ASR 转文字，再用大语言模型去噪、增强逻辑。

视觉锚点因果对齐：用屏幕鼠标光标作为锚点，精确对齐每个动作信号到其执行帧，恢复因果链。

轨迹构建与优化：两帧间的所有键鼠操作合并为动作事件，无操作标记为 no-op；推理时间戳重定位到语义相关的动作，生成高度同步、因果一致的训练序列。

此外，为了解决 " 行为惯性 " 问题，Game-TARS 引入了指数衰减权重，对连续重复动作按指数降低权重，确保新动作获得足够关注，让模型更专注于高熵动作转变，学习出更稳健、泛化能力更强的策略。

在超过 2 万小时、约 5000 亿 token 的游戏数据上大规模预训练后，研究进入后训练阶段，进一步强化智能体在特定任务中的执行能力和交互智能，重点提升三大核心能力：

指令遵循：随机替换按键绑定（如把 W 换成 X 代表 " 向前 "），迫使模型依赖系统提示理解动作语义。同时让模型基于当前帧预测中间动作，加深对动作—状态因果关系的理解。

稀疏思维能力：定位关键决策点，只在高熵步骤增强推理；通过拒绝微调（rejection fine-tuning）强化高效稀疏思维，让智能体学会在关键时刻深思熟虑。

长期记忆：引入双层记忆机制——短期记忆保存最新图像，长期记忆只保留精炼的稀疏思维文本。

此外，为了将能力扩展到游戏以外，后训练还引入了跨领域轨迹数据，包括代码生成、GUI 自动化和科研任务，帮助 Game-TARS 从游戏玩家成长为多功能通用计算机用户。

在具体的训练细节上，研究采用了统一的、单阶段的持续预训练方法，将所有数据源融合在一起，并对模型进行了超过 5000 亿个 token 的训练。

在后训练阶段，对约 200 亿个精心策划的高质量 token 进行了微调。

实验验证

研究首先通过在《我的世界》中测试智能体的能力，验证了统一动作空间和大规模持续预训练的有效性。

与 grounding-based 或基于 API 的动作不同，研究发现统一动作空间在训练数据少于 10B 时，最初在成功率方面并未超越基于 GUI 动作的智能体。

然而，统一动作空间的关键优势在于其可扩展性——可以高效地收集大规模数据，并且智能体可以使用一致的格式跨所有游戏进行预训练。

扩展实验证明，这种统一动作空间为实现通用智能体提供了卓越的基础。

当在大量的通用计算机使用数据语料库上进行训练后，基于统一动作空间的 Game-TARS 在《我的世界》中的表现比以前最先进的专家模型提高了约2倍。

正如开头 demo 中所展示的，研究进行了广泛评估：包括 FPS 游戏 Vizdoom、3D 模拟器 Miniworld 和在线网页游戏。

实验表明，Game-TARS 的迷你版本在各种任务上超越了著名的预训练模型，如 Gemini-2.5-Pro 、GPT-5 和 Claude-4-Sonnet ，展示了在不同领域中的卓越性能。

此外，实验表明 Game-TARS 在训练和推理过程中都具有可扩展性。

总的来说，Game-TARS 依靠简单、通用的原生键盘和鼠标动作空间，实现了大规模跨领域训练。

这一设计不仅提升了智能体的扩展性，也为未来在更多任务和环境中的泛化能力奠定了基础。

One more thing

Game-TARS 的第一作者是北京大学人工智能研究院博士生——王子豪。

王子豪师从梁一韬教授，主要研究方向聚焦于开放式通用智能体的构建，涵盖计算机应用、具身游戏与深度研究等领域，致力于通过大型预训练模型提升智能体的泛化与自主能力。

目前，他在字节跳动 Seed 团队担任研究实习生。

参考链接

[ 1 ] https://arxiv.org/pdf/2510.23691

[ 2 ] https://zhwang4ai.github.io/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

年度科技风向标「2025 人工智能年度榜单」评选报名火热进行中！我们正在寻找 AI+ 时代领航者点击了解详情

企业、产品、人物 3 大维度，共设立了 5 类奖项，欢迎企业报名参与

一键关注点亮星标

科技前沿进展每日见

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

字节发布通用游戏智能体！5000 亿 token 训练，用鼠标键盘吊打 GPT-5！

宙世代

一起剪

相关阅读

9个月吸金86亿，无人配送车拐点已至

夸克要抢豆包的饭碗

iPhone 17系列扩产 博主称供应链订单拉爆

网友吐槽山姆APP换手机被限制登录 官方：为保护会员隐私

1999元起！魅族StarV Snap AI拍摄眼镜首销：39g、支持看一下支付

性能至上！ 一加 15评测：风驰游戏内核赋能 第五代骁龙8至尊版释放极致战力

2025Q3全球智能手机出货量3.2亿台 小米稳居第三

英伟达市值破5万亿美元：黄仁勋要做的不只是AI，还要接管方向盘

巨人网络回应前CEO离职：核心向史玉柱汇报，规避内耗、大公司病

微软CEO：我们是最大的游戏发行商！短视频才是真正竞争对手

方舟健客战略携手复星医药，共创银屑病管理数智新生态

光刻机拆解传闻：逆向工程思维应休矣，自主创新需夯实

11月见！华为全新旗舰大折叠来了：首发麒麟9030、影像更强

终于有了！Windows 11首发主动内存诊断功能：快速找到蓝屏、死机原因

AMD全新25.10.2驱动发布：优化支持《战地风云6》、RX 9000迎新功能

最新评论

量子位

热门推荐

iPhone 17系列扩产博主称供应链订单拉爆

网友吐槽山姆APP换手机被限制登录官方：为保护会员隐私

性能至上！一加 15评测：风驰游戏内核赋能第五代骁龙8至尊版释放极致战力

2025Q3全球智能手机出货量3.2亿台小米稳居第三