清华开源视频生成加速框架：无需重训练，视频生成提速 1.8 倍，质量几乎无损

生成一段 81 帧 720p 视频，要等将近 17 分钟。

这是当前主流DiT视频模型（Wan 2.1、CogVideoX、Sora）绕不开的痛点：3D 时空注意力的二次方复杂度，让高清视频生成的计算成本高得离谱。

现有的稀疏注意力、KV 缓存、量化等加速方法，优化的都是单步内的计算量。但没人去动那个更根本的问题——所有帧被一视同仁，哪怕相邻帧内容几乎完全相同，也要走完完整的 50 步去噪流程。

清华大学 &GigaAI联合提出RhymeFlow：一个完全训练免费的视频生成加速框架，开创帧间异步调度这一全新加速维度。

核心洞察是：视频的语义和运动是连续的，关键帧决定全局结构，非关键帧的轨迹高度可预测。既然如此，为什么不让不同帧各走各的路？

在主流开源模型上的测试显示，推理速度提升1.5 × – 1.8 ×，与现有方法叠加后可达1.93 ×，82 人双盲用户研究中62.5% 的用户无法与原始模型区分差异。

速度魔咒：计算冗余藏在哪里

以 Wan 2.1、CogVideoX 为代表的 DiT 架构视频模型，已经能生成媲美真实拍摄的高清视频。但它们都面临同一个瓶颈：

1、3D 时空注意力的二次方复杂度。生成一段 81 帧 720p 视频需要近 17 分钟（单 A800 GPU），计算成本随分辨率和帧数急剧膨胀。

2、现有加速方法触及天花板。稀疏注意力、KV 缓存、量化，这些方法只能优化单步内的计算量，无法跨步骤、跨帧地压缩冗余。

3、所有帧被一视同仁。哪怕相邻帧内容几乎完全相同，也要走完完整的 50 步去噪流程，隐藏着巨大的计算浪费。

RhymeFlow 的核心洞察正是：视频的语义和运动是连续的，关键帧决定全局结构，非关键帧的轨迹高度可预测。

三个核心设计：让不同帧 " 各走各的路 "

RhymeFlow 开创帧间异步调度这一全新加速维度，通过三个相互配合的模块实现。

内容感知的关键帧选择

不是简单均匀采样，而是通过潜空间语义相似度，自动识别包含场景切换、物体运动突变的关键帧。这些帧获得完整的计算资源，确保视频的结构完整性和语义准确性。

渐进式异步去噪调度

关键帧每步都更新，非关键帧按噪声阶段差异化跳步推进：

热身阶段（前 15 步）：所有帧同步去噪，打好全局构图和运动基础

高噪声阶段（结构敏感）：非关键帧每 2 步更新一次

低噪声阶段（细节优化）：非关键帧每 3 步更新一次

节奏点同步：定期让所有帧汇合，校准非关键帧轨迹，防止误差累积

潜变量轨迹投影

非关键帧跳步后，中间状态缺失会破坏 3D 注意力的时间一致性。RhymeFlow 用一个计算量可忽略的线性投影模块，基于前后两个已知状态，精准预测中间时刻的潜变量。

效果上，相当于给非关键帧画了一条平滑的运动轨迹，让关键帧在更新时总能看到完整的时间上下文。

实验结果

研究团队在主流开源模型上进行了全面测试。

与 SOTA 方法对比

Wan 2.1 上：RhymeFlow 的 PSNR 比 SAP 高 1.84，SSIM 高 0.053，速度相当

CogVideoX 上：以 1.78 × 加速比，保持 98.6% 的主体一致性

与 SAP 叠加后：加速比进一步提升至 1.93 ×，且质量优于单独使用 SAP

82 人双盲用户研究

53.7% 的用户认为 RhymeFlow 的时间连贯性优于 SVG

74.4% 的用户更偏好 RhymeFlow 而非 SAP

与原始模型对比，62.5% 的用户无法区分差异，统计上无显著区别

未来展望

研究团队表示，RhymeFlow 只是异步调度范式的开始。未来将探索三个方向：

1、基于强化学习的自适应调度策略。让模型自己决定哪些帧需要更多计算，而非依赖固定规则。

2、引入光流先验。进一步提升大跳步下的时间一致性。

3、扩展到 world model、robotics 等领域。这些场景对实时性和交互性要求更高，异步调度范式有更大的发挥空间。

论文链接：https://arxiv.org/abs/2604.08370

GitHub 仓库：https://github.com/Simon-Dcs/RhymeFlow

项目主页：https://simon-dcs.github.io/Website-of-RhymeFlow/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

6月12日美股成交额前20：美银上调英特尔评级至“买进”

新浪财经昨天

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

清华开源视频生成加速框架：无需重训练，视频生成提速 1.8 倍，质量几乎无损

宙世代

一起剪

相关阅读

瞄准AI代理赛道 OpenAI收购云端平台强化Codex竞争力

6月12日美股成交额前20：美银上调英特尔评级至“买进”

Fifth Third Bancorp宣布派发多项现金股息

Vontier提前五年超额完成2030减排目标新设65%减排计划

最新评论

量子位

热门推荐

企业资讯

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

清华开源视频生成加速框架：无需重训练，视频生成提速 1.8 倍，质量几乎无损

宙世代

一起剪

相关阅读

瞄准AI代理赛道 OpenAI收购云端平台强化Codex竞争力

6月12日美股成交额前20：美银上调英特尔评级至“买进”

Fifth Third Bancorp宣布派发多项现金股息

Vontier提前五年超额完成2030减排目标 新设65%减排计划

最新评论

量子位

热门推荐

企业资讯

Vontier提前五年超额完成2030减排目标新设65%减排计划