APP下载

关于ZAKER

合作

ITBEAR 5小时前

字节跳动 LPM 1.0 突破 : 让虚拟角色在对话中 " 会听也会说 "

虚拟角色与人类对话的体验，正在被一项名为 LPM 1.0 的技术重新定义。这项由研究团队开发的大规模表演模型，首次将 " 说话 " 与 " 听话 " 能力整合进同一视频生成系统，让虚拟角色不仅能开口表达，还能通过点头、皱眉、眼神变化等细微反应，展现出对人类话语的真实理解。传统系统中角色仅能机械张合嘴部的局限，被这一创新彻底打破。

研究团队指出，现有虚拟角色生成技术普遍陷入 " 表演三难困境 "：追求动作自然则牺牲实时性，保证流畅播放则降低画面质量，维持角色身份一致性又难以支持长时间互动。LPM 1.0 通过系统性设计突破了这些矛盾，其核心在于将 " 对话感知 " 能力嵌入模型底层架构，使角色能根据对话状态自动切换行为模式——当检测到用户语音时，系统会激活听话反应模块，生成与语音情感匹配的微表情；当角色需要说话时，则切换至语音同步模块，确保口型与内容精确对应。

数据构建是这项技术的基石。研究团队从海量原始视频中筛选出 2300 万段说话片段、500 万段听话片段，并开发了四阶段处理流水线：首先剔除无人镜头和低质量片段，再通过主动说话者检测模型 LR-ASD 区分说话、听话与沉默状态，最后由语义验证系统 Qwen3-Omni 过滤误判内容。针对自然对话中 " 听话者 " 画面稀缺的问题，团队特别扩充了包含明显情绪反应的数据集，确保模型能学习到开怀大笑、惊讶等非中性表情。

为解决角色身份漂移难题，研究团队设计了多粒度参考图片系统。该系统包含三类图像：全局外观图提供角色整体形象锚点，多视角身体图展示正侧背四个方向外观，面部表情图集则记录高兴、悲伤等八种基础表情。通过将这些参考图编码为模型可识别的 " 视觉标记 "，系统在生成每帧画面时都能实时比对角色特征，即使角色转身或做夸张表情，也能保持外貌稳定。实验显示，加入多视角参考图后，角色背部服装细节的生成准确率提升了 67%。

模型架构方面，Base LPM 采用 170 亿参数的扩散变换器结构，其创新之处在于 " 交错式双音频注入策略 "：偶数层处理说话音频，奇数层处理听话音频，使不同运动模式的信号在各自通道优化。推理时，系统通过滑动窗口解码技术，每秒处理 3 秒音频（含 2 秒历史上下文），既保证反应及时性，又维持动作连贯性。针对实时流式生成需求，Online LPM 版本采用 " 骨干 - 精炼器 " 双模块设计，骨干模块负责维持视频宏观轨迹，精炼器模块补充高频细节，两者配合使系统能无限时长运行而不出现质量衰减。

在专门设计的 LPM-Bench 评测基准上，该系统展现出显著优势。对比测试中，64.3% 的评估者认为 LPM 1.0 生成的听话反应优于现有最先进模型，特别是在身份一致性维度，其得分高出对手 16 个百分点——这得益于系统对角色皮肤纹理、面部结构等细节的精准控制。实时版本 Online LPM 在动作动态性上获得压倒性好评，82.5% 的评估者认为其生成的肢体语言比对比系统更自然流畅。

技术实现背后是复杂的工程优化。训练阶段，团队通过 " 尤利西斯风格 " 上下文并行技术，使不同 GPU 分别处理视频序列的不同片段，再通过集体通信共享注意力信息，将 GPU 内存占用降低 40%。推理阶段，流水线并行策略让骨干生成与精炼细化同步进行，单 GPU 处理 1 秒视频的延迟控制在 700 毫秒以内。为防止滥用，所有生成内容均嵌入不可见数字水印，并配套开发了 AI 生成检测模型。

当前系统仍存在局限性：暂不支持多人对话场景，角色无法在环境中移动或操作物体，长文本记忆能力也尚未完善。但研究团队已明确技术演进方向：通过引入长期记忆模块增强角色人格一致性，开发多模态注意力机制协调多人互动，并利用 3D 场景理解技术实现物理交互。这项突破表明，视频生成技术正从 " 渲染工具 " 向 " 社交智能载体 " 进化，为虚拟助手、游戏 NPC 等领域带来全新可能。完整技术细节可查阅论文编号 arXiv:2604.07823。返回搜狐，查看更多

平台声明：该文观点仅代表作者本人，搜狐号系信息发布平台，搜狐仅提供信息存储空间服务。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

企业资讯

查看更多内容

Blockchain News

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

字节跳动 LPM 1.0 突破 : 让虚拟角色在对话中 " 会听也会说 "

宙世代

一起剪

相关阅读

广东记录到中华穿山甲“薅树叶”行为清晰影像

广药集团国际化提速：牵手广西，掘金东盟

真有外星人吗！美国总统特朗普称很快发布第一批UFO文件

英国白左大妈强行冲进餐厅放生龙虾：被告上法庭获缓刑

山西这部禁毒微短剧获全国推荐

用镜头记录时代的温度

美伊最新表态

事关霍尔木兹海峡，英法拟牵头开展国际行动

到了人生后半程才发现，比智商、情商更重要的是能量

美对伊朗政策为何“急转弯”？

密西西比修车工免费为困难顾客更换轮胎，善举由陌生顾客资助

二手交易“翻车”实录：私下转账、到手刀……这些套路坑在哪儿？

全国首个AI短剧实验室启动 海选AI创意人才

外卖安全再升级！美团发布十大举措：商家证照数据验真、明厨亮灶后厨直播

平安养老险“盈管家”服务品牌升级发布：以专业铸就信任，以服务守护万家

最新评论

企业资讯

热门推荐

企业资讯

全国首个AI短剧实验室启动海选AI创意人才