关于ZAKER 合作
量子位 45分钟前

字节发布通用游戏智能体!5000 亿 token 训练,用鼠标键盘吊打 GPT-5!

用鼠标和键盘打游戏的智能体,这就来了!

它不仅能在《我的世界》中和普通玩家一较高下。

还能玩《神庙逃亡》、《星露谷》,甚至可以在未见过的 3D 网页游戏中实现零样本迁移。

而这,都是由字节 seed团队打造的通用型游戏智能体——Game-TARS完成的。

Game-TARS 基于统一、可扩展的键盘—鼠标动作空间训练,可在操作系统、网页与模拟环境中进行大规模预训练。

依托超5000亿标注量级的多模态训练数据,结合稀疏推理(Sparse-Thinking)衰减持续损失(decaying continual loss),大幅提升了智能体的可扩展性和泛化性。

在 FPS、开放世界、WEB 游戏等任务中,它的表现超越了GPT-5Gemini-2.5-ProClaude-4-Sonnet

这是怎么做到的?

像人一样用键盘和鼠标打游戏

Game-TARS的核心创新在于,让智能体不再 " 调用函数打游戏 ",而是像人一样用键盘和鼠标操作

也就是说,它不只是简单地执行指令,而是真正通过模拟人类操作的方式完成游戏中的每一个动作。

相比之下,传统智能体通常依赖为特定环境定制的动作集:

在 MCP 或 Code 层,它们可以直接调用 Search ( query ) 完成搜索,无需打开界面或点击按钮。

在 GUI 层则执行封装好的系统动作,如 " 双击 " 或 " 按下热键 "。

这些方式虽然高效,却缺乏通用性。一旦换个操作系统或应用环境,智能体就束手无策。

为解决这个问题,Game-TARS 专注于最底层的Human Actions(人类动作)

mouseMove ( dx, dy ) :鼠标相对移动,包括 x 轴和 y 轴。

mouseClick ( buttons ) :鼠标点击,如左键、右键或中键。

keyPress ( xkeys ) :键盘按键,包括单个按键和按键组合。

这种设计使智能体的动作指令集与任何特定应用或操作系统解耦,实现了与人类用户物理交互方式的直接对齐——

Human-Native Interaction(人类自然交互)

由此,Game-TARS 定义了一个可扩展、统一的动作空间,让智能体告别高层级指令,直接动手 " 玩 ",极大地提高了可扩展性和泛化性。

训练过程

与传统游戏机器人或模块化人工智能不同,Game-TARS 将视觉感知、策略推理、动作执行和长期记忆整合到一个视觉语言模型(VLM)中。

智能体无需针对每款游戏编写特定代码或规则,就能自主学习操作,并在各种游戏中完成任务。

为实现这一点,Game-TARS 将该智能体构建为一个自回归的、参数化的策略,并利用统一的键盘—鼠标动作空间进行训练,包括持续预训练后训练两个阶段,

在预训练阶段,团队采用的ReAct范式,结合稀疏推理(Sparse Thinking)——只在关键决策点交错进行推理和行动,以模拟人类认知模式。

具体做法包括:

离线思维链 + 在线 " 边做边说 "(Think-Aloud):标注者在执行任务时,通过音频实时表达思考,生成原生、即时推理的 ReAct 序列。

多模态同步采集:系统并行录制屏幕帧、鼠标键盘输入及音频,然后通过 ASR 转文字,再用大语言模型去噪、增强逻辑。

视觉锚点因果对齐:用屏幕鼠标光标作为锚点,精确对齐每个动作信号到其执行帧,恢复因果链。

轨迹构建与优化:两帧间的所有键鼠操作合并为动作事件,无操作标记为 no-op;推理时间戳重定位到语义相关的动作,生成高度同步、因果一致的训练序列。

此外,为了解决 " 行为惯性 " 问题,Game-TARS 引入了指数衰减权重,对连续重复动作按指数降低权重,确保新动作获得足够关注,让模型更专注于高熵动作转变,学习出更稳健、泛化能力更强的策略。

在超过 2 万小时、约 5000 亿 token 的游戏数据上大规模预训练后,研究进入后训练阶段,进一步强化智能体在特定任务中的执行能力和交互智能,重点提升三大核心能力:

指令遵循:随机替换按键绑定(如把 W 换成 X 代表 " 向前 "),迫使模型依赖系统提示理解动作语义。同时让模型基于当前帧预测中间动作,加深对动作—状态因果关系的理解。

稀疏思维能力:定位关键决策点,只在高熵步骤增强推理;通过拒绝微调(rejection fine-tuning)强化高效稀疏思维,让智能体学会在关键时刻深思熟虑。

长期记忆:引入双层记忆机制——短期记忆保存最新图像,长期记忆只保留精炼的稀疏思维文本。

此外,为了将能力扩展到游戏以外,后训练还引入了跨领域轨迹数据,包括代码生成、GUI 自动化和科研任务,帮助 Game-TARS 从游戏玩家成长为多功能通用计算机用户

在具体的训练细节上,研究采用了统一的、单阶段的持续预训练方法,将所有数据源融合在一起,并对模型进行了超过 5000 亿个 token 的训练。

在后训练阶段,对约 200 亿个精心策划的高质量 token 进行了微调。

实验验证

研究首先通过在《我的世界》中测试智能体的能力,验证了统一动作空间和大规模持续预训练的有效性。

与 grounding-based 或基于 API 的动作不同,研究发现统一动作空间在训练数据少于 10B 时,最初在成功率方面并未超越基于 GUI 动作的智能体。

然而,统一动作空间的关键优势在于其可扩展性——可以高效地收集大规模数据,并且智能体可以使用一致的格式跨所有游戏进行预训练。

扩展实验证明,这种统一动作空间为实现通用智能体提供了卓越的基础。

当在大量的通用计算机使用数据语料库上进行训练后,基于统一动作空间的 Game-TARS 在《我的世界》中的表现比以前最先进的专家模型提高了约2倍。

正如开头 demo 中所展示的,研究进行了广泛评估:包括 FPS 游戏 Vizdoom、3D 模拟器 Miniworld 和在线网页游戏 。

实验表明,Game-TARS 的迷你版本在各种任务上超越了著名的预训练模型,如 Gemini-2.5-Pro 、GPT-5 和 Claude-4-Sonnet ,展示了在不同领域中的卓越性能。

此外,实验表明 Game-TARS 在训练和推理过程中都具有可扩展性。

总的来说,Game-TARS 依靠简单、通用的原生键盘和鼠标动作空间,实现了大规模跨领域训练。

这一设计不仅提升了智能体的扩展性,也为未来在更多任务和环境中的泛化能力奠定了基础。

One more thing

Game-TARS 的第一作者是北京大学人工智能研究院博士生——王子豪

王子豪师从梁一韬教授,主要研究方向聚焦于开放式通用智能体的构建,涵盖计算机应用、具身游戏与深度研究等领域,致力于通过大型预训练模型提升智能体的泛化与自主能力。

目前,他在字节跳动 Seed 团队担任研究实习生。

参考链接

[ 1 ] https://arxiv.org/pdf/2510.23691

[ 2 ] https://zhwang4ai.github.io/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

年度科技风向标「2025 人工智能年度榜单」评选报名火热进行中!我们正在寻找 AI+ 时代领航者 点击了解详情

企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与

一键关注 点亮星标

科技前沿进展每日见