用鼠标和键盘打游戏的智能体,这就来了!
它不仅能在《我的世界》中和普通玩家一较高下。
还能玩《神庙逃亡》、《星露谷》,甚至可以在未见过的 3D 网页游戏中实现零样本迁移。
而这,都是由字节 seed团队打造的通用型游戏智能体——Game-TARS完成的。
Game-TARS 基于统一、可扩展的键盘—鼠标动作空间训练,可在操作系统、网页与模拟环境中进行大规模预训练。
依托超5000亿标注量级的多模态训练数据,结合稀疏推理(Sparse-Thinking)与衰减持续损失(decaying continual loss),大幅提升了智能体的可扩展性和泛化性。
在 FPS、开放世界、WEB 游戏等任务中,它的表现超越了GPT-5、Gemini-2.5-Pro、Claude-4-Sonnet。

像人一样用键盘和鼠标打游戏
Game-TARS的核心创新在于,让智能体不再 " 调用函数打游戏 ",而是像人一样用键盘和鼠标操作。

相比之下,传统智能体通常依赖为特定环境定制的动作集:
在 MCP 或 Code 层,它们可以直接调用 Search ( query ) 完成搜索,无需打开界面或点击按钮。
在 GUI 层则执行封装好的系统动作,如 " 双击 " 或 " 按下热键 "。
这些方式虽然高效,却缺乏通用性。一旦换个操作系统或应用环境,智能体就束手无策。
为解决这个问题,Game-TARS 专注于最底层的Human Actions(人类动作):
mouseMove ( dx, dy ) :鼠标相对移动,包括 x 轴和 y 轴。
mouseClick ( buttons ) :鼠标点击,如左键、右键或中键。
keyPress ( xkeys ) :键盘按键,包括单个按键和按键组合。
这种设计使智能体的动作指令集与任何特定应用或操作系统解耦,实现了与人类用户物理交互方式的直接对齐——
即Human-Native Interaction(人类自然交互)。
由此,Game-TARS 定义了一个可扩展、统一的动作空间,让智能体告别高层级指令,直接动手 " 玩 ",极大地提高了可扩展性和泛化性。

与传统游戏机器人或模块化人工智能不同,Game-TARS 将视觉感知、策略推理、动作执行和长期记忆整合到一个视觉语言模型(VLM)中。
智能体无需针对每款游戏编写特定代码或规则,就能自主学习操作,并在各种游戏中完成任务。
为实现这一点,Game-TARS 将该智能体构建为一个自回归的、参数化的策略,并利用统一的键盘—鼠标动作空间进行训练,包括持续预训练和后训练两个阶段,

具体做法包括:
离线思维链 + 在线 " 边做边说 "(Think-Aloud):标注者在执行任务时,通过音频实时表达思考,生成原生、即时推理的 ReAct 序列。
多模态同步采集:系统并行录制屏幕帧、鼠标键盘输入及音频,然后通过 ASR 转文字,再用大语言模型去噪、增强逻辑。
视觉锚点因果对齐:用屏幕鼠标光标作为锚点,精确对齐每个动作信号到其执行帧,恢复因果链。
轨迹构建与优化:两帧间的所有键鼠操作合并为动作事件,无操作标记为 no-op;推理时间戳重定位到语义相关的动作,生成高度同步、因果一致的训练序列。
此外,为了解决 " 行为惯性 " 问题,Game-TARS 引入了指数衰减权重,对连续重复动作按指数降低权重,确保新动作获得足够关注,让模型更专注于高熵动作转变,学习出更稳健、泛化能力更强的策略。
在超过 2 万小时、约 5000 亿 token 的游戏数据上大规模预训练后,研究进入后训练阶段,进一步强化智能体在特定任务中的执行能力和交互智能,重点提升三大核心能力:
指令遵循:随机替换按键绑定(如把 W 换成 X 代表 " 向前 "),迫使模型依赖系统提示理解动作语义。同时让模型基于当前帧预测中间动作,加深对动作—状态因果关系的理解。
稀疏思维能力:定位关键决策点,只在高熵步骤增强推理;通过拒绝微调(rejection fine-tuning)强化高效稀疏思维,让智能体学会在关键时刻深思熟虑。
长期记忆:引入双层记忆机制——短期记忆保存最新图像,长期记忆只保留精炼的稀疏思维文本。
此外,为了将能力扩展到游戏以外,后训练还引入了跨领域轨迹数据,包括代码生成、GUI 自动化和科研任务,帮助 Game-TARS 从游戏玩家成长为多功能通用计算机用户。

在后训练阶段,对约 200 亿个精心策划的高质量 token 进行了微调。
实验验证
研究首先通过在《我的世界》中测试智能体的能力,验证了统一动作空间和大规模持续预训练的有效性。

然而,统一动作空间的关键优势在于其可扩展性——可以高效地收集大规模数据,并且智能体可以使用一致的格式跨所有游戏进行预训练。
扩展实验证明,这种统一动作空间为实现通用智能体提供了卓越的基础。
当在大量的通用计算机使用数据语料库上进行训练后,基于统一动作空间的 Game-TARS 在《我的世界》中的表现比以前最先进的专家模型提高了约2倍。
正如开头 demo 中所展示的,研究进行了广泛评估:包括 FPS 游戏 Vizdoom、3D 模拟器 Miniworld 和在线网页游戏 。
实验表明,Game-TARS 的迷你版本在各种任务上超越了著名的预训练模型,如 Gemini-2.5-Pro 、GPT-5 和 Claude-4-Sonnet ,展示了在不同领域中的卓越性能。


这一设计不仅提升了智能体的扩展性,也为未来在更多任务和环境中的泛化能力奠定了基础。
One more thing
Game-TARS 的第一作者是北京大学人工智能研究院博士生——王子豪。
王子豪师从梁一韬教授,主要研究方向聚焦于开放式通用智能体的构建,涵盖计算机应用、具身游戏与深度研究等领域,致力于通过大型预训练模型提升智能体的泛化与自主能力。

参考链接
[ 1 ] https://arxiv.org/pdf/2510.23691
[ 2 ] https://zhwang4ai.github.io/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」评选报名火热进行中!我们正在寻找 AI+ 时代领航者 点击了解详情
企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与
一键关注 点亮星标
科技前沿进展每日见
 
          