一个新视频模型背后，藏着蔡浩宇给游戏行业造的「新引擎」

LPM 1.0 只是冰山一角，蔡浩宇真正在造的，是下一个时代的游戏引擎。

作者｜桦林舞王

编辑｜靖宇

4 月 9 日，一篇来自 Anuttacon 团队的论文悄悄出现在 arXiv 上。论文展示了一个叫 LPM 1.0 的视频模型——全称 Large Performance Model，注意，是 Performance（表演），不是 Language（语言）。

这个 170 亿参数的扩散 Transformer 模型，能让一个 AI 角色在视频里说话、倾听、做出微表情，保持身份一致地「演」下去，理论上可以无限时长。说白了，它是一个专门让虚拟角色「活起来」的视觉引擎。

大多数人的第一反应，是把它和 Seedance、Sora 这些视频生成模型做对比。但如果只看到一个视频模型，就看窄了。

而如果稍微对 Anuttacon 团队有些了解的人会知道，这并不是一个纯素人团队，这个团队的领军者，其实是米哈游的创始人蔡浩宇。

而 LPM 1.0 这个模型真正值得关注的，不是它本身做了什么，而是它暴露了蔡浩宇，正在搭建的那个更大的技术栈——一个可能替代传统游戏引擎的全新架构。

但在聊那个更大的东西之前，有必要先理解一下：为什么这个模型叫「表演模型」，而不是「视频模型」？这个命名本身，就藏着一个关键的技术判断。

为什么叫「表演」，不叫「生成」

现有的视频生成模型，本质上是一个「给定输入，输出完整视频」的过程。你给它一段文字描述，它生成一段 5 秒或 10 秒的视频。这个过程更像拍电影——先有完整的剧本，再一次性渲染出画面。

但 LPM 1.0 做的事情不一样。它的核心场景是对话——一个角色坐在你对面，你说一句话，它在你说话的过程中就开始有反应了。不是等你说完，不是等系统处理完语义再输出一段动画，而是在你的 input 还在进行的时候，角色就已经在倾听、点头、皱眉、微笑。

这就是「表演」这个词的真正含义。表演的本质是反应，而反应的核心是实时性。

Anuttacon 首页展示的 lpm1.0 模型产出的场景｜图片来源：Anuttacon

一个好演员在对手戏里，不会等对方把整段台词念完再开始「演」。他在听的过程中，眼神、呼吸、嘴角的细微变化就已经在传递信息了。LPM 1.0 要做的正是这件事——它不是一个「看完剧本再演」的系统，而是一个「在对话中即时反应」的系统。

论文里把这个能力叫做「full-duplex conversation」，全双工对话。模型同时支持「说」和「听」两种模式——当角色在说话的时候，会根据合成语音生成口型、表情和动作；当角色在听的时候，会根据用户的语音实时生成倾听反应，包括点头、眨眼、表情变化。两种模式可以自然地来回切换，就像真人对话一样。

这个选择背后代表的技术思路和通用视频生成模型完全不同。Sora、Seedance 这些模型追求的是画面质量和多样性——能生成多逼真的画面、多丰富的场景。而 LPM 追求的是交互中的真实感——角色在持续的信息流中，能否给出即时的、连贯的、符合当下情境的反应。

说白了，前者是在做「电影」，后者是在做「活人」。

这也解释了为什么 LPM 1.0 要把实时推理能力看得那么重。论文里的「表演三难困境」之所以把实时性放在和表现力同等重要的位置，正是因为哪怕表情再精致，如果延迟了两秒才做出反应，那种「活着」的感觉就瞬间崩塌了。

被忽略的新信号

外界对 LPM 1.0 的讨论，基本集中在视频生成的技术细节上。但从公开信息推导，会发现一个被大多数人忽略的事实：蔡浩宇在 Anuttacon 主抓的核心方向，其实是大语言模型，而不是视频生成。

线索并不少。Anuttacon 的招聘页面长期挂着预训练、后训练、Agent 等 LLM 相关岗位。团队核心成员吴箫剑曾参与 Meta 的 Llama 3.1 研究，在 Anuttacon 担任大模型研究团队负责人。今年 4 月，蔡浩宇还和刘伟、罗宇皓一起向上海交大捐赠，设立了一个名叫「AI 未来基石」的基金。

更直接的信号来自刘伟。

他在上海交大的一次公开活动中，罕见地解释了蔡浩宇创立 Anuttacon 的逻辑——米哈游作为六七千人的大公司存在组织惰性，不利于从零开始做 AI 创新，所以几年前决定让蔡浩宇亲自下场，以小团队形态推进 AI 研发。刘伟还透露了一个关键信息：他们的目标是从基础预训练开始，开发一种「有情感的大语言模型」，不仅具备智能水平，还能理解人类的情感诉求。

把这个信息和 LPM 1.0 放在一起看，逻辑就清晰了。

LPM 1.0 论文里写得很明确：这个视频模型可以和 ChatGPT、豆包等音频对话模型即插即用地组合使用，它自己不做决策，只负责视觉呈现。

换句话说，LPM 是一个「表演层」，但它需要一个「大脑」来告诉角色该说什么、该怎么反应。这个大脑，就是大语言模型。

没有强大的基座语言模型，LPM 就是一个精致的空壳。

「语言模型 + 表演模型」= 下一代游戏引擎？

理解了这个架构，就能看到蔡浩宇真正在做的事情。

传统游戏引擎 Unity 和 Unreal 解决的核心问题是：如何高效地渲染 3D 世界、管理物理系统、处理玩家输入。游戏角色的行为完全由开发者预设——对话是写好的分支树，动作是做好的动画片段，表情是绑定的骨骼权重。

蔡浩宇想做的，是用 AI 替换掉这整套流程。

在他构想的架构里，语言模型负责角色的「思考」——理解玩家说了什么、决定如何回应、维持人格一致性；表演模型负责角色的「表达」——把语言模型的决策转化为可见的视频画面，包括口型、表情、肢体动作和情绪变化。

这不是在现有引擎上加一个 AI 插件，而是用 AI，从底层重建角色的整个生成链路。

LPM 1.0 的论文里有一个概念叫「表演三难困境」（Performance Trilemma）——高表现力、实时推理和长时身份稳定，三者很难兼顾。

团队的解法是先训练一个 17B 参数的 Base LPM 把表演空间学深，再蒸馏成低延迟的 Online LPM 用于实时交互。在推理阶段，还设计了 Generator + Refiner 的双层渲染管线，第一层快速输出轮廓，第二层精修细节，两层交替流水线式工作。

这些技术细节很重要，但更重要的是它们指向的方向：让一个 AI 角色能像真人一样，在任意长的时间里持续、稳定、有表现力地「活着」。

《星之低语》游戏画面｜图片来源：Anuttacon

Anuttacon 去年发布的 AI 游戏《星之低语》，已经是这个思路的早期验证——玩家通过语音和文字与 AI 角色 Stella 实时对话，没有预设的分支选项，角色的反应完全由 AI 生成。

而 LPM 1.0 要解决的，是让这种交互不仅仅停留在文字和语音层面，而是让玩家真正「看到」一个在对面和你说话、倾听、做出反应的角色。

论文的未来规划同样意味深长。

作者提出了三个演进方向：

时间维度上，做更长对话的记忆和人格持续性；

社会维度上，处理多人互动和轮流发言；

物理维度上，把角色行为锚定到场景和物体上。

论文最后还有一句很有野心的表述：未来这种分阶段的流水线，可能会走向统一的 actor model ——一个统一决定角色怎么说、怎么演、怎么持续存在的系统。

这不就是一个跨世代「引擎」该做的事吗？

蔡浩宇在为什么样的世界造引擎？

把时间线拉长来看，蔡浩宇的路径其实一直很清晰。

2021 年，米哈游投资脑机接口公司，与瑞金医院共建脑病实验室。同一年，米哈游投资了 MiniMax ——如今的大模型六小龙之一。2023 年，蔡浩宇卸任米哈游董事长，奔赴海外。2024 年创立 Anuttacon，团队至今不到 40 人，但汇聚了前微软亚研院首席研究员童欣、参与过 Llama 3 研究的吴箫剑、前 B 站副总裁王宇阳、来自小鹏智算中心的基础设施负责人 Erik Li。

蔡浩宇大学专业就是人工智能方向。某种意义上，他绕了一大圈——从 AI 到二次元游戏，再从游戏回到 AI ——最终走回了自己的起点。只不过这一次，他要用 AI 去重新定义那个让他成名的行业。

刘伟在今年的公开活动中说得很坦诚，蔡浩宇创办 Anuttacon 并非「分家」，而是米哈游面对组织惰性做出的主动选择。刘伟留守管理六七千人的米哈游本体，蔡浩宇带着小团队去做最前沿的技术攻坚。

米哈游等于拆出一个 founder，专门面向新世界造引擎。

这件事当然只是个开始。

LPM 1.0 目前还只是一篇论文，团队明确表示不会开源模型权重，也不提供 API 和在线 demo。从研究到产品还有很长的路。语言模型那边，Anuttacon 的基座模型也没有任何公开的 benchmark 可供参考。

但方向已经相当明确了。蔡浩宇赌的是：未来的游戏角色不再是开发者用脚本和动画预设出来的提线木偶，而是由语言模型驱动思考、由表演模型实时渲染的「数字生命」。 而支撑这一切运转的底层系统，就是他要造的那个「新引擎」。

2010 年，还在上海交大读研的蔡浩宇和刘伟、罗宇皓一起，用 Adobe Flash 开发了一个 2.5D 游戏引擎叫 Misato。16 年后，蔡浩宇又在造引擎了。

只不过这次的引擎，跑的不是像素和多边形，而是语言、表演和情感——未来 AI 形象最需要的底层基础。

* 头图来源：Anuttacon

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

极客一问

你觉得未来的游戏引擎是怎样的？

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

一个新视频模型背后，藏着蔡浩宇给游戏行业造的「新引擎」

宙世代

一起剪

相关阅读

有图不再有真相！全球首富马斯克加入拼好饭 图片让网友感慨：谣言系AI生成

核显性能匹敌RTX 5070！联发科取消Computex演讲：重点转向N1/N1X芯片

399元 荣耀亲选Codeler头戴式耳机2发布：57dB降噪 对标Bose QC旗舰

中国家用电器研究院：将持续完善标准体系建设 开展相关空调产品铝实证实验工作

马斯克600亿吞Cursor，剑指OpenAI

腾讯与字节的AI时差：1200天

线上销量都快被小米超越！友商吐槽：格力空调从行业第一掉下来有原因

韩国法院裁定：三星工程师因向某中国存储公司泄露芯片技术 判处7年有期徒刑

Agent中的“爱马仕”来啦：100k+ Star 的开源AI Agent ，正在偷偷给自己升级

台积电亮出新一代芯片技术 拟绕开ASML天价设备

突破瓶颈！华为Sub-1GHz Massive MIMO全球首次商用

重生剧又卷新赛道：这次玩的是＂治愈系＂

滴滴计划2026年在阿联酋启动Robotaxi测试

杭州的一个下午，我被一家脑机接口公司打动了

最新评论

极客公园

热门推荐

企业资讯

有图不再有真相！全球首富马斯克加入拼好饭图片让网友感慨：谣言系AI生成

399元荣耀亲选Codeler头戴式耳机2发布：57dB降噪对标Bose QC旗舰

中国家用电器研究院：将持续完善标准体系建设开展相关空调产品铝实证实验工作

韩国法院裁定：三星工程师因向某中国存储公司泄露芯片技术判处7年有期徒刑

台积电亮出新一代芯片技术拟绕开ASML天价设备