关于ZAKER 合作
ITBEAR 5小时前

字节跳动 LPM 1.0 突破 : 让虚拟角色在对话中 " 会听也会说 "

虚拟角色与人类对话的体验,正在被一项名为 LPM 1.0 的技术重新定义。这项由研究团队开发的大规模表演模型,首次将 " 说话 " 与 " 听话 " 能力整合进同一视频生成系统,让虚拟角色不仅能开口表达,还能通过点头、皱眉、眼神变化等细微反应,展现出对人类话语的真实理解。传统系统中角色仅能机械张合嘴部的局限,被这一创新彻底打破。

研究团队指出,现有虚拟角色生成技术普遍陷入 " 表演三难困境 ":追求动作自然则牺牲实时性,保证流畅播放则降低画面质量,维持角色身份一致性又难以支持长时间互动。LPM 1.0 通过系统性设计突破了这些矛盾,其核心在于将 " 对话感知 " 能力嵌入模型底层架构,使角色能根据对话状态自动切换行为模式——当检测到用户语音时,系统会激活听话反应模块,生成与语音情感匹配的微表情;当角色需要说话时,则切换至语音同步模块,确保口型与内容精确对应。

数据构建是这项技术的基石。研究团队从海量原始视频中筛选出 2300 万段说话片段、500 万段听话片段,并开发了四阶段处理流水线:首先剔除无人镜头和低质量片段,再通过主动说话者检测模型 LR-ASD 区分说话、听话与沉默状态,最后由语义验证系统 Qwen3-Omni 过滤误判内容。针对自然对话中 " 听话者 " 画面稀缺的问题,团队特别扩充了包含明显情绪反应的数据集,确保模型能学习到开怀大笑、惊讶等非中性表情。

为解决角色身份漂移难题,研究团队设计了多粒度参考图片系统。该系统包含三类图像:全局外观图提供角色整体形象锚点,多视角身体图展示正侧背四个方向外观,面部表情图集则记录高兴、悲伤等八种基础表情。通过将这些参考图编码为模型可识别的 " 视觉标记 ",系统在生成每帧画面时都能实时比对角色特征,即使角色转身或做夸张表情,也能保持外貌稳定。实验显示,加入多视角参考图后,角色背部服装细节的生成准确率提升了 67%。

模型架构方面,Base LPM 采用 170 亿参数的扩散变换器结构,其创新之处在于 " 交错式双音频注入策略 ":偶数层处理说话音频,奇数层处理听话音频,使不同运动模式的信号在各自通道优化。推理时,系统通过滑动窗口解码技术,每秒处理 3 秒音频(含 2 秒历史上下文),既保证反应及时性,又维持动作连贯性。针对实时流式生成需求,Online LPM 版本采用 " 骨干 - 精炼器 " 双模块设计,骨干模块负责维持视频宏观轨迹,精炼器模块补充高频细节,两者配合使系统能无限时长运行而不出现质量衰减。

在专门设计的 LPM-Bench 评测基准上,该系统展现出显著优势。对比测试中,64.3% 的评估者认为 LPM 1.0 生成的听话反应优于现有最先进模型,特别是在身份一致性维度,其得分高出对手 16 个百分点——这得益于系统对角色皮肤纹理、面部结构等细节的精准控制。实时版本 Online LPM 在动作动态性上获得压倒性好评,82.5% 的评估者认为其生成的肢体语言比对比系统更自然流畅。

技术实现背后是复杂的工程优化。训练阶段,团队通过 " 尤利西斯风格 " 上下文并行技术,使不同 GPU 分别处理视频序列的不同片段,再通过集体通信共享注意力信息,将 GPU 内存占用降低 40%。推理阶段,流水线并行策略让骨干生成与精炼细化同步进行,单 GPU 处理 1 秒视频的延迟控制在 700 毫秒以内。为防止滥用,所有生成内容均嵌入不可见数字水印,并配套开发了 AI 生成检测模型。

当前系统仍存在局限性:暂不支持多人对话场景,角色无法在环境中移动或操作物体,长文本记忆能力也尚未完善。但研究团队已明确技术演进方向:通过引入长期记忆模块增强角色人格一致性,开发多模态注意力机制协调多人互动,并利用 3D 场景理解技术实现物理交互。这项突破表明,视频生成技术正从 " 渲染工具 " 向 " 社交智能载体 " 进化,为虚拟助手、游戏 NPC 等领域带来全新可能。完整技术细节可查阅论文编号 arXiv:2604.07823。返回搜狐,查看更多

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容