关于ZAKER Skills 合作
量子位 15小时前

清华开源视频生成加速框架:无需重训练,视频生成提速 1.8 倍,质量几乎无损

生成一段 81 帧 720p 视频,要等将近 17 分钟。

这是当前主流DiT视频模型(Wan 2.1、CogVideoX、Sora)绕不开的痛点:3D 时空注意力的二次方复杂度,让高清视频生成的计算成本高得离谱。

现有的稀疏注意力、KV 缓存、量化等加速方法,优化的都是单步内的计算量。但没人去动那个更根本的问题——所有帧被一视同仁,哪怕相邻帧内容几乎完全相同,也要走完完整的 50 步去噪流程。

清华大学 &GigaAI联合提出RhymeFlow:一个完全训练免费的视频生成加速框架,开创帧间异步调度这一全新加速维度。

核心洞察是:视频的语义和运动是连续的,关键帧决定全局结构,非关键帧的轨迹高度可预测。既然如此,为什么不让不同帧各走各的路?

在主流开源模型上的测试显示,推理速度提升1.5 × – 1.8 ×,与现有方法叠加后可达1.93 ×,82 人双盲用户研究中62.5% 的用户无法与原始模型区分差异。

速度魔咒:计算冗余藏在哪里

以 Wan 2.1、CogVideoX 为代表的 DiT 架构视频模型,已经能生成媲美真实拍摄的高清视频。但它们都面临同一个瓶颈:

1、3D 时空注意力的二次方复杂度。生成一段 81 帧 720p 视频需要近 17 分钟(单 A800 GPU),计算成本随分辨率和帧数急剧膨胀。

2、现有加速方法触及天花板。稀疏注意力、KV 缓存、量化,这些方法只能优化单步内的计算量,无法跨步骤、跨帧地压缩冗余。

3、所有帧被一视同仁。哪怕相邻帧内容几乎完全相同,也要走完完整的 50 步去噪流程,隐藏着巨大的计算浪费。

RhymeFlow 的核心洞察正是:视频的语义和运动是连续的,关键帧决定全局结构,非关键帧的轨迹高度可预测。

三个核心设计:让不同帧 " 各走各的路 "

RhymeFlow 开创帧间异步调度这一全新加速维度,通过三个相互配合的模块实现。

内容感知的关键帧选择

不是简单均匀采样,而是通过潜空间语义相似度,自动识别包含场景切换、物体运动突变的关键帧。这些帧获得完整的计算资源,确保视频的结构完整性和语义准确性。

渐进式异步去噪调度

关键帧每步都更新,非关键帧按噪声阶段差异化跳步推进:

热身阶段(前 15 步):所有帧同步去噪,打好全局构图和运动基础

高噪声阶段(结构敏感):非关键帧每 2 步更新一次

低噪声阶段(细节优化):非关键帧每 3 步更新一次

节奏点同步:定期让所有帧汇合,校准非关键帧轨迹,防止误差累积

潜变量轨迹投影

非关键帧跳步后,中间状态缺失会破坏 3D 注意力的时间一致性。RhymeFlow 用一个计算量可忽略的线性投影模块,基于前后两个已知状态,精准预测中间时刻的潜变量。

效果上,相当于给非关键帧画了一条平滑的运动轨迹,让关键帧在更新时总能看到完整的时间上下文。

实验结果

研究团队在主流开源模型上进行了全面测试。

与 SOTA 方法对比

Wan 2.1 上:RhymeFlow 的 PSNR 比 SAP 高 1.84,SSIM 高 0.053,速度相当

CogVideoX 上:以 1.78 × 加速比,保持 98.6% 的主体一致性

与 SAP 叠加后:加速比进一步提升至 1.93 ×,且质量优于单独使用 SAP

82 人双盲用户研究

53.7% 的用户认为 RhymeFlow 的时间连贯性优于 SVG

74.4% 的用户更偏好 RhymeFlow 而非 SAP

与原始模型对比,62.5% 的用户无法区分差异,统计上无显著区别

未来展望

研究团队表示,RhymeFlow 只是异步调度范式的开始。未来将探索三个方向:

1、基于强化学习的自适应调度策略。让模型自己决定哪些帧需要更多计算,而非依赖固定规则。

2、引入光流先验。进一步提升大跳步下的时间一致性。

3、扩展到 world model、robotics 等领域。这些场景对实时性和交互性要求更高,异步调度范式有更大的发挥空间。

论文链接:https://arxiv.org/abs/2604.08370

GitHub 仓库:https://github.com/Simon-Dcs/RhymeFlow

项目主页:https://simon-dcs.github.io/Website-of-RhymeFlow/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注 了解详情

点亮星标

科技前沿进展每日见

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容