
作者丨郑佳美
编辑丨马晓宁
在生成式 AI 进入视频生产链之后,视频增强正在从后期修补工具,变成内容生产、内容分发和机器视觉理解中的基础能力。
现实需求已经不只是让画面变清楚,而是要在电商直播中看清商品质感,在工业巡检中识别裂纹和仪表读数,在远程协作中保留设计细节,在文博数字化中尽量还原影像纹理。
随着 4K 级高清内容逐渐成为视频平台、智能电视、大屏显示和专业制作流程中的常见需求,低清素材如何被稳定放大到更高分辨率,同时保留纹理、边缘和运动连续性,也成为视频增强技术必须面对的问题。
难点在于,视频增强不能只追求锐度。传统单步模型速度快,但细节往往保守;多步扩散模型细节丰富,但推理成本高,难以大规模落地。更复杂的是,视频不是单张图片,每一帧清楚还不够,帧与帧之间还要稳定,否则就会出现闪烁、跳动和细节漂移。
在这样的背景下,中国科学技术大学与智象未来研究团队提出了《PS-SR: Pseudo-Single-Step Video Super-Resolution via Speculative Diffusion》。
这项研究没有简单地在单步和多步之间二选一,而是让强大的 base model 先恢复整体结构,再让轻量 draft model 补充细节,并通过频域更新约束生成范围,让模型尽量增强纹理而不改写主体内容。
它真正回应的问题是:当视频增强进入大规模应用时,系统能不能既足够快,又足够稳,还能生成可信细节。PS-SR 探索的伪单步扩散路径,为高质量视频增强提供了一种更接近实际部署的方案,也为内容平台、智能视觉系统和生成式视频工具提供了新的技术参考。

01
像单步一样快,像多步一样细
实验结果方面,PS-SR 在画质、速度、稳定性三方面较均衡,核心优势是接近单步模型的速度,同时具备多步扩散模型级别的细节表现,主要提升体现在纹理更清楚、结构更稳定、帧间抖动更少,适用场景包括合成退化视频和真实互联网低质视频
与其他方法相比,PS-SR 相比 STAR、SeedVR 速度明显更快,相比 DLoRAL、SeedVR2、DOVE 细节更自然、结构偏移更少。

真实视频表现上,VideoLQ 是无高清参考的真实低质视频,PS-SR 在人脸区域能让五官边缘更稳定、细节不过度扭曲。
时间一致性表现上,PS-SR 的帧间连续性优于对比方法,视频闪烁减少,局部纹理跳动减少,运动区域更平滑,播放观感更稳定,关键原因是基础视频扩散模型中的 motion prior 被保留。
主观评价结果显示,参与者更倾向选择 PS-SR,偏好原因是清晰度、自然感、连续性综合更好,视觉优势不是单纯锐化,而是结构保真 + 细节增强,用户感知重点集中在人脸自然度、物体边缘、视频流畅度。

速度结果显示,PS-SR 采用 1 次 base model 推理 + 3 次 draft model 细化,推理耗时接近单步方法,计算开销明显低于多步扩散方法,实用价值是更适合实际视频增强部署。
参数分析结果显示,采样步数较少时结构保真更强,但细节不足。采样步数较多时细节更丰富,但内容偏移风险增加,最终设置为 T = 4,细化强度较低时画面稳定,但不够清晰,细化强度较高时画面更锐,但可能改变结构,最终设置为 α = 0.6,draft model 剪枝过少时速度提升有限,draft model 剪枝过多时细节生成能力不足,最终设置为剪掉 20 个 DiT block。
这些结果也解释了 PS-SR 为什么采用 " 强模型打底,轻模型精修 " 的设计:它不是单纯增加推理步骤来换取画质,也不是为了速度压缩到只剩一次生成,而是在结构恢复、细节补充和计算成本之间寻找平衡。下面进一步拆解研究团队如何搭建和验证这一流程。

强模型打底,轻模型精修
整体来看,研究的实验目的包括验证 PS-SR 的视频超分能力,验证 " 伪单步 " 框架的速度优势,验证多步细化带来的细节提升,验证频域更新对结构稳定性的作用,验证真实低质视频中的泛化能力。
数据准备阶段使用 YouHQ 高质量视频片段作为训练数据,通过 RealESRGAN 退化流程构造低质输入,合成测试集包括 UDM10、SPMCS、YouHQ40,真实测试集为 VideoLQ,数据覆盖人物、车辆、动物、街景、互联网低质视频。
输入处理阶段以低质量视频作为输入,通过 VAE encoder 编码,进入 latent space 表示空间,目的在于降低视频处理成本,便于扩散模型生成。

base model 训练包括 latent space 训练、VSD 约束、对抗训练、pixel space 微调和 patch 训练,其中 latent space 训练用于学习低质视频到高质视频的整体映射,VSD 约束用于让单步输出接近多步扩散模型的质量分布,对抗训练用于增强视觉真实感,pixel space 微调用于提升局部区域质量,patch 训练通过随机裁剪局部区域减少显存压力。
训练目标是全局结构准确 + 局部细节清晰;draft model 阶段的模型来源是 base model 的轻量剪枝版本,结构变化是移除部分 DiT block,主要任务是后续高频细节补充,重点内容包括边缘、纹理、局部清晰度,执行次数为多次轻量细化,设计目的在于用较小计算量模拟多步扩散的细节生成能力。
draft model 特征增强阶段将 base model 特征传递给 draft model,融合方式为对应层特征拼接,后续处理通过 FC layer 恢复维度,作用是让轻量模型获得强模型的表达信息,好处是剪枝后仍保持细节生成能力。
draft model 训练以中间 latent 状态作为输入,输出细化方向,训练损失为 L2 loss + pixel loss,不使用 VSD 以减少训练复杂度,不使用对抗损失以避免过度追求分布对齐,训练重点是高频细节恢复。

这样做的好处是,模型不是重新改写整幅画面,而是在原有结构上增加细节,从而减少语义漂移,让纹理更丰富,同时让主体形状保持稳定。
完整推理流程依次为低质视频输入、VAE 编码、base model 单步恢复、draft model 第 1 次细化、频域更新、draft model 第 2 次细化、频域更新、draft model 第 3 次细化、频域更新、VAE 解码、高质量视频输出。

评价内容包括重建类指标用于判断结构是否接近 GT,感知类指标用于判断画面是否自然、清晰,无参考指标用于判断真实视频中的视觉质量,时间一致性指标用于判断帧间是否稳定,主观评价用于判断人眼观看偏好。
分析实验包括模块消融、步数分析、剪枝分析、强度分析和长视频讨论,其中模块消融分析 VSD、对抗损失、像素监督、频域更新,步数分析不同 T 的效果,剪枝分析不同 draft model 规模,强度分析不同 α 的细节增强程度,长视频讨论重叠切片与融合策略。

从看清视频,到看懂世界
总的来说,这项研究更重要的价值不只是提出一种视频超分方法,而是回应了普通人日常观看视频时最直接的痛点,也就是低清、模糊、压缩严重、细节丢失和播放不稳定。
伪单步框架的意义在于它并不是真正只做 1 步,而是让视觉体验和速度体验接近单步,同时在内部保留轻量多步细化,大模型负责关键一步,小模型负责后续修补,从而降低计算量,并保留细节生成能力。
base model 的意义在于提供全局结构基础,保证主体形状不乱,保证语义内容不偏,保证低频信息稳定,相当于先把整体轮廓建立准确。draft model 的意义在于以低成本补充细节,模拟多步扩散的细化过程,提升边缘、纹理、局部清晰度,避免每一步都使用大模型,相当于在稳定轮廓上继续补充纹理。
频域更新的意义在于把结构和细节分开处理,低频负责整体内容,高频负责纹理细节,只更新高频可以减少内容改写,保留低频可以增强输入输出一致性,关键价值是防止越修越偏。
对画质提升来说,PS-SR 能让细节增强更自然,人脸区域更可信,物体边缘更清楚,背景纹理更丰富,画面不容易假锐化,结果更接近真实高清视频。对视频稳定性来说,它提升的不只是单帧清晰度,还能减少帧间闪烁,让运动变化更平滑,让观看体验更舒服,这一点对真实视频应用尤其重要。
从效率的角度来看,大模型只运行关键一步,轻量模型承担重复细化,推理速度接近单步方法,计算成本远低于完整多步扩散,更利于部署在视频增强系统中。
实际应用上,这项研究可用于互联网低清视频增强、老视频修复、短视频平台画质提升、监控视频清晰化、压缩视频修复和长视频分段增强。
对后续研究来说,强模型 + 轻模型协作范式、频域约束生成思路可以迁移到视频去噪、去模糊、去压缩伪影,也能启发其他生成任务中的低成本多步细化,对实时高保真视频生成具有参考价值。
总体来看,研究形成了一个面向视频超分的效率质量折中方案,一个减少扩散模型推理成本的结构设计,一个控制语义漂移的频域细化机制,以及一个更接近实际部署需求的视频增强框架。
去哪看 CVPR 核心【演讲 / 论文】详解?
为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 CVPR 2026 的完整干货,雷峰网已全面线【CVPR 2026 深度专区】。
专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲,更将持续更新前方记者的第一手会议动态。
扫描下方二维码,或点击「阅读原文」关注专区。
与全球 8000 名顶尖大脑同步呼吸,抢先透视具身智能的下一个五年!