我们身处一个对数字娱乐体验的期待被无限拔高的时代。每当一款像《GTA6》预告片那样的重磅内容释出,引发全球玩家对虚拟世界真实感、互动性与自由度的热烈讨论时,一个更深层次的渴望便浮出水面:我们对未来游戏的终极幻想,究竟是什么模样?
或许,它不再仅仅是开发者预设好一切的精致沙盒,也不是传统意义上 AI 扮演的 NPC(非玩家角色)或陪玩伙伴。想象一下,如果 AI 本身就是 " 创世神 ",能够实时理解你的意图,动态生成一个鲜活、演进、遵循内在物理逻辑,并且可以被你随心所欲探索、操控乃至重塑的互动宇宙?在这个世界里,每一次日出、每一片落叶、每一个 NPC 的反应,都不是预设脚本的重复,而是 AI 基于对 " 世界规则 " 的理解与你的互动而涌现的独一无二的体验。
这听起来像是遥不可及的科幻片段吗?在过去,或许是的。但今天,随着人工智能技术的飞速发展,尤其是 " 世界模型 " 这一前沿概念的兴起,这种由 AI 主导构建交互式世界的愿景,已吸引了全球众多前瞻者的目光和投入。
从科技巨头如英伟达凭借其 Cosmos 平台在推动物理 AI 的普及,谷歌 DeepMind 集结顶尖人才专攻能够模拟真实物理环境的世界模型,微软 MineWorld、Oasis 项目等项目探索特定场景下的实时交互生成,李飞飞的 World Labs 聚焦空间智能大型世界模型 LWM,都在不断拓展 " 世界模型 " 的边界。
在这场全球性的技术浪潮中,中国的科技力量同样在积极布局。昆仑万维便是其中之一,持续在 AGI 与 AIGC 领域进行投入。继此前推出的 Matrix Zero 初步探索了 AI 基于单张图片生成虚拟世界的能力之后,其最新发布的 Matrix-Game,成为首个 10B+ 参数的开源交互式世界模型。对 MatrixGame V1 的技术细节、开源代码或在线演示感兴趣的读者,可以通过以下链接获取更多信息:
项目主页:https://matrix-game-homepage.github.io/
技术报告:https://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdf
GitHub 开源地址:https://github.com/SkyworkAI/Matrix-Game
HuggingFace 开源地址:https://huggingface.co/Skywork/Matrix-Game
Matrix-Game:构建可交互的 " 真实 "
在对 AI 驱动的交互式世界充满期待的背景下,昆仑万维 Matrix 系列在空间智能领域的探索再进一步,推出了其在交互式世界生成方向的首次正式落地成果—— Matrix-Game,不仅仅是一个全新的模型,背后也是一种面向未来的技术范式和应用潜力。在 Demo 演示中我们可以直观的看到 Matrix-Game 的能力:
在多个经典的《我的世界》风格场景中,Matrix-Game 都能够精确响应用户的键盘与鼠标指令。角色流畅地执行着前进、后退、跳跃、攻击等基础动作,视角也随着用户的操控自由切换:
Matrix-Game 支持自回归方式生成,在长视频中,场景依然能够保持高度的时序一致性和视觉连贯性:
Matrix-Game 还初步展示了场景泛化的潜力,能够生成不同类型虚拟世界:
直观的演示之后,Matrix-Game 的交互生成能力已初见端倪,但其技术基底才是决定能力边界的关键。
Matrix-Game 是什么?
Matrix-Game 被定义为一款面向游戏世界建模的交互式世界基础模型。其核心设计目标,是在可自由探索的开放环境中,实现高质量的内容生成与用户输入的精确控制 。通俗地讲,Matrix-Game 通过融合视频生成技术与用户交互体验,目标是让用户能够通过简单直观的指令(如键盘按键、鼠标移动),自由地探索、操控,乃至实时创造出细节丰富、且遵循合理物理规则的虚拟世界。这就好比,以前 AI 可能只是给我们放一段动画片,我们只能 " 被动 " 观看;现在 AI 则是给了我们一个巨大的互动游乐场,我们不仅能进去玩,还能动手与 AI 共同搭建新的游乐设施。
三大技术基石
Matrix-Game 构建于其三大核心技术基石之上。首先是Matrix-Game-MC 数据集,昆仑万维为此自主构建了大规模的交互世界数据集,其中包含两大类关键数据:一是大规模的无标签 Minecraft 游戏视频;二是带有精确键盘与鼠标控制信号的 Minecraft 及 Unreal 可控视频数据,这些数据均具备精细的动作注释 。为保证预训练数据质量,团队从高达 6000 小时的 MineDojo(基于《Minecraft》的开源 AI 研究框架)原始数据中,通过画质与美学、非游戏内容剔除、动态与视角稳定性等多阶段过滤机制,筛选出近千小时的高质量 720p 视频片段。
系统的核心引擎是 Matrix-Game 主模型。这是一个基于先进扩散模型技术开发的 " 图像到世界 "(Image-to-World)生成框架 。它强调空间智能能力,不依赖复杂的语言提示,仅基于视觉信号来建模空间几何、物体运动及其物理交互,并以单张参考图像作为生成交互式视频的起点 。
该模型能够根据用户的键盘指令(如上下左右跳跃攻击,以离散 token 表达)和鼠标移动(如视角变化,以连续 token 表达)等输入,融合 GameFactory 的控制模块与多模态 Diffusion Transformer 架构,并运用 CFG 技术提升控制鲁棒性,直接生成虚拟游戏世界的视频内容 。
最后,为了科学、客观地评估一个 " 世界模型 " 的交互能力和真实性这一行业难题,昆仑万维提出了 GameWorld Score 评测体系,这是专为 Minecraft 世界建模设计的统一评测框架 ,旨在为交互式世界模型建立一个统一的评估标准,从视觉质量、时间连贯性、动作可控性以及物理规则理解等四个关键维度,对模型的综合性能进行量化评估,这不仅有助于 Matrix-Game 自身的迭代优化,也为该领域内缺乏系统性评测基准的现状提供了一个有益的补充。
不只是 " 又一个 " 世界模型
审视 Matrix-Game 的技术细节及其展现出的特性,我们不难发现昆仑万维在交互式 AI 世界生成这一前沿赛道上,寻求技术突破与独特市场定位的努力。
一个核心的亮点是它在让你和 AI 世界互动时的控制感,以及这个世界本身的真实感(尤其是物理规律方面)有了很大提升。有些 AI 可能主要就是把画面做得漂亮,但 Matrix-Game 不太一样,它着力确保其生成的世界具备内在的合理性与连贯性,避免出现违背基本规律与常识的场景。比如,在这个 AI 世界里,东西真的会往下掉,你操作的角色跳起来、撞到障碍物,都会有比较真实的反应。你能精细地控制角色往前走、跳起来、转头看风景,而且 AI 反应很快,操作起来更顺手,这样体验起来就感觉更真实,也更容易上手。我们可以把它与其他一些类似的开源方案做一个对比。比如说 Decart 的公司的 Oasis 模型,它能做到实时互动,但目前看,Oasis 生成的画面还比较模糊,有时候逻辑也不太连贯,有网友评论说就像是在噩梦一样,微软也推出了 Mineworld 模型,但主要是给研究人员做实验用的,画面也比较粗糙,离真正的商业应用还有距离。
相较之下,Matrix-Game 不仅在细粒度的用户交互控制上表现出色,模型支持前进、跳跃、攻击、视角移动等多种细节操作,并能根据用户输入做出准确自然的响应。Matrix-Game 努力的方向是既要让用户能跟它顺畅互动,又要保证画面尽量真实、物理效果靠谱、整个世界也不能 bug 或者前后矛盾层出不穷。从昆仑万维的测试的结果来看,MatrixGame 在 Minecraft 世界生成任务的各项指标上(包括视觉质量、时间一致性、动作可控性与物理规则理解)均超越了这两个模型 。例如,其图像质量达到 0.72,键盘控制准确率为 0.95,鼠标控制准确率为 0.95,3D 一致性为 0.76,均高于对比组 。在双盲用户评估中,Matrix-Game 生成的视频在总体偏好率上达到了 96.3%,动作控制偏好达 93.76% 。这些数据直观地反映了其在交互体验和生成质量上的提升。
此外,昆仑万维还做了 GameWorld Score 评分系统,本身是一个挺新的想法,以前大家评价这种 AI 世界好不好,可能比较模糊,现在有了个更清楚的尺子,来量一量这个世界到底有多 " 好用 "、多 " 真实 "。
继 GameWorld Score 评测体系之后,昆仑万维也将 Matrix-Game 模型在 Github 和 Hugging Face 上开源 。此举主要面向游戏行业,同时也保留了其作为通用模型的潜力。对于一家中国企业而言,在交互式 AI 世界生成这一前沿技术领域选择开源,体现了其开放的行业姿态与推动生态发展的意愿。通过开放核心技术,Matrix-Game 有望降低行业应用门槛,吸引更广泛的开发者参与共建,从而激发更多创新应用场景的涌现。
AI 生成世界,然后呢?
当 AI 真正开始理解并能构建可交互的 " 真实 ",最直接的影响是在游戏行业。传统的游戏开发流程漫长且成本高昂,而随着 Matrix-Game 这样的交互式世界模型的发展。想象一下,开发者可以借助 AI 快速生成多样化的游戏世界原型,甚至让 AI 根据预设规则动态生成新的任务、场景和挑战,极大地丰富游戏内容,降低开发门槛。
玩家也将从被动接受预设内容,转变为与 AI 共同创造独一无二游戏体验的参与者。AI 驱动的 NPC 不再是只会重复固定对话的 " 背景板 ",而是能够进行有意义互动、甚至拥有 " 个性 " 的智能伙伴。
Matrix-Game 的潜力还将辐射到具身智能的训练与测试。要让机器人或虚拟智能体在复杂物理世界中高效工作,需要海量、多样化且可控的训练环境。Matrix-Game 所构建的遵循物理规则、支持细粒度交互的虚拟世界,为智能体的动作规划、任务执行和环境适应性学习提供了理想的 " 健身房 "。
这次 Matrix-Game 的发布可以看到,昆仑万维除了在 AI 应用层面(如 AI 搜索、AI 短剧、AI 音乐、AI 游戏、AI 社交等)的布局,在底层技术(" 天工 " 系列大模型、AI 芯片研发)上也在进行持续投入。
世界模型,因其对现实世界的模拟与理解能力,被许多研究者视为通往通用人工智能(AGI)的关键路径之一。当前 AI 研究者对世界模型的追求,是试图超越数据,进行反事实推理,回答 "what if" 问题的能力。一旦世界模型产生突破,AI 的决策能力将大幅提升。
尽管世界模型技术仍面临算力需求、模型幻觉、数据版权等多重挑战,距离理想中能完美模拟现实的 " 超级模拟器 " 也还有漫长的道路要走。但 Matrix-Game 的发布,像是向未来投下的一颗石子,连同全球范围内其他先行者的探索,清晰地揭示了这一趋势:当 AI 不仅能生成我们眼前的景象,更能赋予这个景象内在的逻辑、鲜活的互动,甚至在其中展现出一定的 " 创造性 " 时,数字世界便开始拥有了某种意义上的 " 灵魂 "。
这样的世界不再仅仅是被动体验的对象,而是成为我们思想的延伸、创造力的画布,以及与 AI 共同书写未来叙事的广阔场域。