蔡浩宇的 AI 公司悄悄发布了首个视频大模型

在小说阅读器读本章

去阅读

终于开始了。

文 / 修理

昨日，AilingZeng 在 X 上公布了 LPM 1.0，一个基于视频的角色表演模型，能够实时说话、唱歌、倾听、反应和做表情。

根据信息显示，LPM 1.0 是面向单人全双工音视频对话的角色表演大模型，针对现有视频生成模型难以兼顾高表现力、实时推理、长时身份稳定性等挑战研发。

团队构建了以人为中心多模态数据集，训练 17B 参数的 Base LPM 并将其蒸馏为低延迟流式的 Online LPM，实现实时视频生成、无限时长身份一致生成与细腻拟人化表演。

同时打造出首个交互角色表演基准LPM-Bench，在各项评估中取得 SOTA 结果，可作为对话代理、直播角色、游戏 NPC 的通用视觉引擎。

根据其个人主页信息，AilingZeng 隶属于 Anuttacon 技术团队——就是蔡浩宇创办的那个 AI 公司。她此前曾在腾讯混元团队与 AI Lab 实验室从事模型相关研究工作。

该模型的技术论文一共由 24 位研究人员参与，内容很多，有兴趣的朋友可以自行搜索查看。葡萄君也不懂技术，这里就简单展示一下，这个模型可以具体做什么事情吧。

首先，LPM 1.0 为多模态输入，你可通过 1 张图片 + 参考图片（可选）+ 说话 / 听 / 静音音频 + 文本的方式，来生成一段角色表演。这个表演视频可用于角色对话、角色直播和游戏 NPC 的视觉呈现。

通过下段视频你可以看到，该模型在角色的言语、节奏、目光，以及犹豫、思考等微表情方面上，有着相当多的真实细节。

LPM 1.0 采用了多维度的角色身份稳定要素：全局外观参考、多视角身体图像与面部表情参考素材。以此来规避模型对牙齿、表情纹路、侧脸轮廓、未显露的身体形态等未知细节进行错误生成的问题，以实现角色身份的精准保持。

同时该模型也支持不同角色风格作为输入：写实、2D 动漫、3D 游戏和非类人生物等等，无需任何微调或领域特定训练。

并且 LPM 1.0 是支持实时互动的。根据官网的说法，该模型能在无限的交互时长下保持稳定、身份一致的生成，并会有回应前的停顿、身体节奏、目光转移等细节。

这种对话支持全双工（Full-duplex）：就像真实的打电话或面对面聊天。双方可以同时说话、倾听，互相随时打断，直接反馈。

该 GIF 取自一段 45 分钟的演示对话，基于 Online LPM 480P 型号生成

另外，在非对话场景中，角色独处于某个环境时，也会有着真实的呼吸节奏、自然的表演与准确的情感表达。

在 Anuttacon 团队看来，LPM 1.0 主要优势在于：视觉忠实度、精准口型、身份保护以及自然感，包括支持任意长度的内容生成。（Kling-Avatar 2.0 和 OmniHuman 1.5 最多限制为 30 秒）

所以 LPM 1.0 可能适用于以下情形：AI 对话、游戏 NPC 互动、虚拟直播、教育辅导、游戏伴侣等等。长直播视频生成。

不过值得注意的是，Anuttacon 团队现在没有计划向公众发布模型权重、源代码、在线演示、API、产品或任何相关产品。

本次公开仅用于展示 LPM 1.0 当前的研究进展，供学术交流使用。该模型不会开源或对外开放。

所以葡萄君认为，本次 LPM 1.0 对外披露的核心目的仍是招聘。之前不少相关人士都曾表示，蔡浩宇正在全力押注 AI 领域，且相关团队仍存在大量 AI 人才招聘缺口。而 LPM 大概率也不是 Anuttacon 唯一的技术探索方向，可以推测，他们未来很有可能还会推出更多的大模型。

看到这里，你大概就会发现，在一众游戏创始人中，蔡浩宇对 AI 的重视程度可能是最明显的，会亲自下场，在一线 All in。

而不管是米哈游还是 Anuttacon、Hoyoverse，他们近年来在 AI 领域的种种布局，其实已经开始形成一条有迹可循的技术探索路线。

比如说 Anuttacon 成立之初就表示要打造一款 AI 原生的游戏引擎级平台，开发者仅需输入前提条件，即可一键生成可自由交互的智能 NPC，并以此快速搭建完整游戏世界。

而从最开始试验性质的 AI 游戏《Whispers from the Star》，再到后来的 AI 聊天产品 AnuNeko，再到如今的 LPM 1.0，这个技术的进化进度肉眼可见。

AnuNeko

包括米哈游或者Anuttacon 近年来在各个 AI 领域的动作，看似分散，但现在也逐渐能串联起来了：

《崩坏：星穹铁道》团队早在 2023 年就已开始尝试将 AI 工具应用到角色行为管理、3D 建模调优、NPC 台词等多个方面，并希望未来打造 " 对话永不重复的智能 NPC"。

米哈游还在 2025 年发布了崩坏 IP 项目组 AI 专项招募计划。该计划面向 AI 人才，核心目的包括 "AI 驱动提效 "（将 AI 应用到游戏开发全流程）和 "AI 驱动创新 "（通过 AI 带来新的游戏体验）。项目组已搭建 AI Agent 平台 Echo 和多个游戏开发管线应用。

前阵子，米哈游三位创始人蔡浩宇、刘伟、罗宇皓还通过刘伟代表，向上海交通大学捐款助力 "AI 未来基石基金 "。不难猜想，这也是为后续的 AI 人才输送铺路。

而虚拟角色鹿鸣，米哈游与 Hoyoverse 联合开发的《雨之城》（Varsapura），则都有可能作为 AI 技术的探索载体。

事实上，在米哈游生活模拟新作《星布谷地》的首次测试里，已经推出了可支持玩家自由文字对话的 AI NPC。

正如游戏葡萄此前的报道，每当谈及终极愿景时，蔡浩宇始终坚定会地认为，未来生成式的语言模型能跟游戏结合，做出非常酷的产品。

于他而言，虚拟世界是贯穿始终的灯塔。童年时对 " 被窝里的小电视 " 的幻想，因智能手机成为现实；而如今看不清终点的虚拟世界赛道，所有的 AI 技术布局、产品试验与底层探索，都是他一步步靠近这个终极目标的必经之路。

游戏葡萄招聘商务经理，

点击「阅读原文」可了解详情

推荐阅读

极限汉化丝之歌 | 对话鹰角主策| AI 零代码开发

起底游戏周边 | 白银之城 | 离职字节创业

对话终末地| 对话前沐瞳 CEO | 对话鸣潮总监

游戏行业书籍推荐：

点击下方名片，关注公众号

（星标可第一时间收到推送和完整封面）

藏了6年的《王者荣耀世界》，到底行不行？

差评 11小时前

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

蔡浩宇的 AI 公司悄悄发布了首个视频大模型

宙世代

一起剪

相关阅读

藏了6年的《王者荣耀世界》，到底行不行？

最新评论

游戏葡萄

企业资讯