
作者|桦林舞王
编辑|靖宇
4 月 9 日,一篇来自 Anuttacon 团队的论文悄悄出现在 arXiv 上。论文展示了一个叫 LPM 1.0 的视频模型——全称 Large Performance Model,注意,是 Performance(表演),不是 Language(语言)。
这个 170 亿参数的扩散 Transformer 模型,能让一个 AI 角色在视频里说话、倾听、做出微表情,保持身份一致地「演」下去,理论上可以无限时长。说白了,它是一个专门让虚拟角色「活起来」的视觉引擎。
大多数人的第一反应,是把它和 Seedance、Sora 这些视频生成模型做对比。但如果只看到一个视频模型,就看窄了。
而如果稍微对 Anuttacon 团队有些了解的人会知道,这并不是一个纯素人团队,这个团队的领军者,其实是米哈游的创始人蔡浩宇。
而 LPM 1.0 这个模型真正值得关注的,不是它本身做了什么,而是它暴露了蔡浩宇,正在搭建的那个更大的技术栈——一个可能替代传统游戏引擎的全新架构。
但在聊那个更大的东西之前,有必要先理解一下:为什么这个模型叫「表演模型」,而不是「视频模型」?这个命名本身,就藏着一个关键的技术判断。
01
为什么叫「表演」,不叫「生成」
现有的视频生成模型,本质上是一个「给定输入,输出完整视频」的过程。你给它一段文字描述,它生成一段 5 秒或 10 秒的视频。这个过程更像拍电影——先有完整的剧本,再一次性渲染出画面。
但 LPM 1.0 做的事情不一样。它的核心场景是对话——一个角色坐在你对面,你说一句话,它在你说话的过程中就开始有反应了。不是等你说完,不是等系统处理完语义再输出一段动画,而是在你的 input 还在进行的时候,角色就已经在倾听、点头、皱眉、微笑。
这就是「表演」这个词的真正含义。表演的本质是反应,而反应的核心是实时性。
Anuttacon 首页展示的 lpm1.0 模型产出的场景|图片来源:Anuttacon
一个好演员在对手戏里,不会等对方把整段台词念完再开始「演」。他在听的过程中,眼神、呼吸、嘴角的细微变化就已经在传递信息了。LPM 1.0 要做的正是这件事——它不是一个「看完剧本再演」的系统,而是一个「在对话中即时反应」的系统。
论文里把这个能力叫做「full-duplex conversation」,全双工对话。模型同时支持「说」和「听」两种模式——当角色在说话的时候,会根据合成语音生成口型、表情和动作;当角色在听的时候,会根据用户的语音实时生成倾听反应,包括点头、眨眼、表情变化。两种模式可以自然地来回切换,就像真人对话一样。
这个选择背后代表的技术思路和通用视频生成模型完全不同。Sora、Seedance 这些模型追求的是画面质量和多样性——能生成多逼真的画面、多丰富的场景。而 LPM 追求的是交互中的真实感——角色在持续的信息流中,能否给出即时的、连贯的、符合当下情境的反应。
说白了,前者是在做「电影」,后者是在做「活人」。
这也解释了为什么 LPM 1.0 要把实时推理能力看得那么重。论文里的「表演三难困境」之所以把实时性放在和表现力同等重要的位置,正是因为哪怕表情再精致,如果延迟了两秒才做出反应,那种「活着」的感觉就瞬间崩塌了。
02
被忽略的新信号
外界对 LPM 1.0 的讨论,基本集中在视频生成的技术细节上。但从公开信息推导,会发现一个被大多数人忽略的事实:蔡浩宇在 Anuttacon 主抓的核心方向,其实是大语言模型,而不是视频生成。
线索并不少。Anuttacon 的招聘页面长期挂着预训练、后训练、Agent 等 LLM 相关岗位。团队核心成员吴箫剑曾参与 Meta 的 Llama 3.1 研究,在 Anuttacon 担任大模型研究团队负责人。今年 4 月,蔡浩宇还和刘伟、罗宇皓一起向上海交大捐赠,设立了一个名叫「AI 未来基石」的基金。
更直接的信号来自刘伟。
他在上海交大的一次公开活动中,罕见地解释了蔡浩宇创立 Anuttacon 的逻辑——米哈游作为六七千人的大公司存在组织惰性,不利于从零开始做 AI 创新,所以几年前决定让蔡浩宇亲自下场,以小团队形态推进 AI 研发。刘伟还透露了一个关键信息:他们的目标是从基础预训练开始,开发一种「有情感的大语言模型」,不仅具备智能水平,还能理解人类的情感诉求。
把这个信息和 LPM 1.0 放在一起看,逻辑就清晰了。
LPM 1.0 论文里写得很明确:这个视频模型可以和 ChatGPT、豆包等音频对话模型即插即用地组合使用,它自己不做决策,只负责视觉呈现。
换句话说,LPM 是一个「表演层」,但它需要一个「大脑」来告诉角色该说什么、该怎么反应。这个大脑,就是大语言模型。
没有强大的基座语言模型,LPM 就是一个精致的空壳。
03
「语言模型 + 表演模型」= 下一代游戏引擎?
理解了这个架构,就能看到蔡浩宇真正在做的事情。
传统游戏引擎 Unity 和 Unreal 解决的核心问题是:如何高效地渲染 3D 世界、管理物理系统、处理玩家输入。游戏角色的行为完全由开发者预设——对话是写好的分支树,动作是做好的动画片段,表情是绑定的骨骼权重。
蔡浩宇想做的,是用 AI 替换掉这整套流程。
在他构想的架构里,语言模型负责角色的「思考」——理解玩家说了什么、决定如何回应、维持人格一致性;表演模型负责角色的「表达」——把语言模型的决策转化为可见的视频画面,包括口型、表情、肢体动作和情绪变化。
这不是在现有引擎上加一个 AI 插件,而是用 AI,从底层重建角色的整个生成链路。
LPM 1.0 的论文里有一个概念叫「表演三难困境」(Performance Trilemma)——高表现力、实时推理和长时身份稳定,三者很难兼顾。
团队的解法是先训练一个 17B 参数的 Base LPM 把表演空间学深,再蒸馏成低延迟的 Online LPM 用于实时交互。在推理阶段,还设计了 Generator + Refiner 的双层渲染管线,第一层快速输出轮廓,第二层精修细节,两层交替流水线式工作。
这些技术细节很重要,但更重要的是它们指向的方向:让一个 AI 角色能像真人一样,在任意长的时间里持续、稳定、有表现力地「活着」。

Anuttacon 去年发布的 AI 游戏《星之低语》,已经是这个思路的早期验证——玩家通过语音和文字与 AI 角色 Stella 实时对话,没有预设的分支选项,角色的反应完全由 AI 生成。
而 LPM 1.0 要解决的,是让这种交互不仅仅停留在文字和语音层面,而是让玩家真正「看到」一个在对面和你说话、倾听、做出反应的角色。
论文的未来规划同样意味深长。
作者提出了三个演进方向:
时间维度上,做更长对话的记忆和人格持续性;
社会维度上,处理多人互动和轮流发言;
物理维度上,把角色行为锚定到场景和物体上。
论文最后还有一句很有野心的表述:未来这种分阶段的流水线,可能会走向统一的 actor model ——一个统一决定角色怎么说、怎么演、怎么持续存在的系统。
这不就是一个跨世代「引擎」该做的事吗?
04
蔡浩宇在为什么样的世界造引擎?
把时间线拉长来看,蔡浩宇的路径其实一直很清晰。
2021 年,米哈游投资脑机接口公司,与瑞金医院共建脑病实验室。同一年,米哈游投资了 MiniMax ——如今的大模型六小龙之一。2023 年,蔡浩宇卸任米哈游董事长,奔赴海外。2024 年创立 Anuttacon,团队至今不到 40 人,但汇聚了前微软亚研院首席研究员童欣、参与过 Llama 3 研究的吴箫剑、前 B 站副总裁王宇阳、来自小鹏智算中心的基础设施负责人 Erik Li。
蔡浩宇大学专业就是人工智能方向。某种意义上,他绕了一大圈——从 AI 到二次元游戏,再从游戏回到 AI ——最终走回了自己的起点。只不过这一次,他要用 AI 去重新定义那个让他成名的行业。
刘伟在今年的公开活动中说得很坦诚,蔡浩宇创办 Anuttacon 并非「分家」,而是米哈游面对组织惰性做出的主动选择。刘伟留守管理六七千人的米哈游本体,蔡浩宇带着小团队去做最前沿的技术攻坚。
米哈游等于拆出一个 founder,专门面向新世界造引擎。
这件事当然只是个开始。
LPM 1.0 目前还只是一篇论文,团队明确表示不会开源模型权重,也不提供 API 和在线 demo。从研究到产品还有很长的路。语言模型那边,Anuttacon 的基座模型也没有任何公开的 benchmark 可供参考。
但方向已经相当明确了。蔡浩宇赌的是:未来的游戏角色不再是开发者用脚本和动画预设出来的提线木偶,而是由语言模型驱动思考、由表演模型实时渲染的「数字生命」。 而支撑这一切运转的底层系统,就是他要造的那个「新引擎」。
2010 年,还在上海交大读研的蔡浩宇和刘伟、罗宇皓一起,用 Adobe Flash 开发了一个 2.5D 游戏引擎叫 Misato。16 年后,蔡浩宇又在造引擎了。
只不过这次的引擎,跑的不是像素和多边形,而是语言、表演和情感——未来 AI 形象最需要的底层基础。
* 头图来源:Anuttacon
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
极客一问
你觉得未来的游戏引擎是怎样的?
