你是否曾被 AI 视频生成的不连贯性所困扰?
在交互式创作中,仅仅切换一句提示词,故事就可能瞬间 " 崩塌 ":一个角色暂时离开画面后再次出现,却 " 面目全非 ",仿佛换了演员;或者,当你尝试引入一个新角色,AI 却在后续的剧情中反复 " 召唤 " 这个新人,甚至将多个角色的特征混淆在一起。这种 " 金鱼记忆 " 式的顽疾,正是长视频生成在叙事上的一大致命伤。
现在,来自香港大学和快手可灵(Kling)团队的研究者们,联合推出了突破性方案——MemFlow。

流动的叙事 vs. 僵化的记忆
为了生成长视频,主流模型普遍采用" 分块生成 "的策略,即像放映幻灯片一样,一段一段地生成视频片段。
然而,如何让后生成的片段精准地 " 记住 " 前面的内容,成了一道巨大的技术鸿沟。以往的解决方案大致可分为几类,但都存在明显局限:
1. " 只记开头 " 的策略:一些模型只保留第一个视频片段作为记忆,后续所有生成都参考它。这种方法在单一场景下尚可,一旦故事发展,需要引入新角色或切换到全新场景时,模型就会因为 " 记忆 " 中没有这些新信息而迷失,导致后续生成与此前内容在视觉和语义上均存在不连贯性。
2. " 一刀切 " 的压缩策略:另一些方法试图将所有历史画面压缩成一个固定大小的 " 记忆包 "。问题在于,不同的叙事需求要回忆的重点不同," 一刀切 " 的压缩往往会丢失关键细节,导致主体特征遗忘和视觉质量漂移。
3. " 各自为政 " 的流程:还有一些流程试图将任务拆分,先让一个模型制作关键帧脚本,再让另一个模型根据脚本生成视频。这种方式在根据各段脚本分别生成时是各自独立的,拼接成的完整视频缺乏全局一致性。
这些僵化的、非自适应的记忆策略,无法应对交互式创作中流动的、不可预测的叙事需求,这正是导致交互式长视频生成一致性差的原因。
产生真正的长时记忆与叙事连贯性
MemFlow 跳出依赖死板、固定记忆的传统模式,建立了一套动态、以语义作为桥梁的记忆系统,其优势主要体现在两方面:
1. 长时记忆:维持复杂场景下的视觉一致性
MemFlow 获得了物体形象的长期记忆能力。这意味着,即使在长视频中存在场景切换、镜头变换,甚至是角色的插入或暂时消失等复杂情况,它也能记住每个主体的核心视觉特征。
2. 叙事连贯性:确保多主体故事线的清晰发展
学习导演思维,从全局角度理解剧情。在涉及多个主体的叙事中,MemFlow 不会错误地重复引入已经存在的角色,更不会发生主体混淆的 " 脸盲 " 错误。当用户引入新主体并对其展开后续描述时,MemFlow 能准确理解并延续叙事,让故事流畅地向前推进。
自适应的高效动态记忆

叙事自适应记忆(NAM):在生成新片段前,它会根据当前提示词,智能地从记忆库中检索出最相关的视觉记忆。这使其无论是延续旧角色还是描绘新互动,总能找到准确的视觉参考,从而维持一致性。这种设计使模型能够在有限的记忆容量下优先保留与当前叙事最相关的信息,从而在一致性和计算开销之间取得平衡。
稀疏记忆激活(SMA):为了兼顾效率,该机制会像聚光灯一样,只激活记忆中最关键的信息进行计算。这不仅避免了信息过载导致的混淆,还极大地提升了生成速度,在保证高质量叙事的同时实现了高效率。
从定量数据到定性对比的全面验证
为了评估 MemFlow 的实际效果,研究团队进行了一系列详尽的定性和定量实验,其结果清晰地展示了该模型在长视频生成领域的性能表现。
定量分析:关键指标的显著提升

综合质量与美学评分表现出色:
在 VBench-Long 的评估体系下,MemFlow 在质量总分(85.02)和美学小分(61.07)上均取得了所有对比模型中的最高分,表明其生成的视频在视觉质量和美学呈现上具有良好水准。
长程语义一致性得到验证:
通过逐段评估视频与文本匹配度的 CLIP 分数,可以观察到一个关键现象:在视频的后半段(如 40-60 秒),许多模型在语义一致性上的表现会因误差累积而出现明显下滑,但 MemFlow 的分数能够持续保持在较高水平。这反映了其动态记忆机制在维持长期叙事一致性方面的有效性,有助于缓解 " 越往后越乱 " 的问题。
一致性表现优异:
在衡量核心能力的一致性评分上,MemFlow 取得了96.60的高分,与所有对比模型相比处于领先位置。这直接说明,无论是角色、背景还是物体,MemFlow 能在复杂的叙事变化中较好地保持视觉统一。
此外,在针对不同记忆机制的消融实验中,结果显示,MemFlow 所采用的 "叙事自适应记忆 + 稀疏激活(NAM+SMA)" 策略,相较于 " 无记忆 " 或仅 " 记住第一段(Frame Sink)" 的方案,在主体一致性和背景一致性上均取得了提升,同时还实现了比采用完整记忆库更高的运行效率。

除了数据指标,直观的视觉对比更清晰地展示了模型的实际能力:
避免叙事混乱:在一个引入 " 一位穿着休闲毛衣的女士 " 的多镜头场景中,其他模型在提示词切换后,出现了生成人物外貌不一致或重复引入主体的问题。而 MemFlow 则成功地在多个镜头中维持了同一位女士的形象,未见明显漂移。



实验结果显示:在同样的多提示词长视频生成任务中,传统模型易出现主体漂移和角色混淆,而 MemFlow 则保持了更好的叙事连贯性和视觉一致性。
更重要的是,MemFlow 在单个 NVIDIA H100 上实现了 FPS=18.7 的实时推理速度,与无记忆的基线模型相比,性能损耗极小。它在一致性、美学评分和文本对齐度等多项关键指标上,均达到 SOTA 水平。
开启长视频叙事新纪元
由香港大学与快手可灵团队共同打造的 MemFlow,通过其独特的动态记忆机制,将 AI 视频生成技术从 " 片段拼接 " 推向了 " 故事编写 " 的新高度。
它标志着 AI 正从一个只能创作 " 概念视频 " 的画师,蜕变为一个能够驾驭复杂剧情、保持角色连贯的 " 叙事导演 "。
一个真正能够理解、记忆并连贯讲述故事的 AI 视频创作时代,正在到来。
Arxiv:https://arxiv.org/pdf/2512.14699
Project Page:https://sihuiji.github.io/MemFlow.github.io/
Github:https://github.com/KlingTeam/MemFlow
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

科技前沿进展每日见