为什么 AI 生成的视频总是模糊卡顿?为什么细节纹理经不起放大?为什么动作描述总与画面错位?
其中一个重要原因在于,现有的开源千万级视频数据集分辨率基本低于 1080P(1920 × 1080),且大部分视频的说明(caption)简单粗糙,不利于大模型学习。
当主流视频生成模型还在 720P 画质挣扎时,浙江大学 APRIL 实验室联合多家高校推出的高质量开源 UHD-4K(其中 22.4% 为 8K)文本到视频数据集—— UltraVideo,破解了这一困局。
该数据集涵盖广泛主题(超过 100 种),每个视频配备 9 个结构化字幕及一个总结性字幕(平均 824 词)。
作为全球首个开源 4K/8K 超高清视频数据集,UltraVideo配合结构化语义描述框架,让视频生成实现从 " 勉强能看 " 到 " 影院级质感 " 的跨越式进化。
团队基于 42K 精选视频微调的 UltraWan-4K 模型,实现三大突破:
原生 4K 生成:直接输出 4K(3840 × 2160)分辨率视频;
语义精准控制:利用结构化描述实现镜头语言控制;
资源高效:仅用 LoRA 轻量化训练,单卡可部署。
当前视频生成面临两大瓶颈:
分辨率陷阱:模型在低清数据训练后,直接生成 4K 视频会出现严重失真。如图 2 所示,na ve Wan-T2V-1.3B 在 1080P 生成时画质显著下降,而提升到 4K(2160 × 3840)分辨率时完全失效。
语义鸿沟:简单文本描述无法很好地细致控制主题、背景、风格、镜头、光影等影视级参数。
UltraVideo 通过严苛四阶筛选实现视频质量跃迁:
源头把控:人工从 YouTube 精选 5000 部 4K/8K 原片,时长从 1 分钟到 2 小时不等,并对视频进行二次人工审核,以确保尽可能避免低质量、模糊、水印和抖动等问题,在源头把控视频质量而减少后续流程的漏检负载。
统计信息过滤:去 OCR 字幕、去黑边、曝光 / 灰度检测淘汰劣质视频片段
模型二次过滤:视频美学评估、时序运动打分、视频 - 文本一致性排序、基于 MLLM 的 16 种常见视频缺陷过滤。
结构化描述:基于 Qwen2.5-VL-72B 自动化 caption 管线,生成 9 类语义标签(镜头运动 / 光影 / 氛围等),并通过 Qwen3-4B 汇总总结描述(每个视频平均 824 个单词)。
基于 UltraVideo 数据集,团队在中小规模的 Wan-T2V-1.3B 上进行实验。
团队惊讶发现,仅用 42K 包含全面文本的极高视频质量数据就足以显著提升生成视频的审美和分辨率。
由于团队仅使用 LoRA 进行微调,并未涉及模型结构的修改,相关经验可以轻松地迁移到开源社区的其他 T2V 模型上。
此外,由于高分辨率需要更多的计算能力导致推理速度变慢,团队从 VBench 中随机抽取了十分之一( 96)的提示进行测试。
如表 4 所示,团队比较了五个模型:(1)官方 Wan-T2V-1.3B 模型,分辨率为 480 × 832(2)将分辨率提高到 1K(1088 × 1920)(3)1K 全参数微调(4)1K LoRA PEFT。(5)4K LoRA PEFT
1、将官方模型扩展到 1K 会导致性能显著下降。
2、基于 UltraWan-1K 的全参数训练显著提升了 1K 分辨率下的生成效果。但与原生模型相比,训练超参数(如批大小和提示)的差异可能导致其整体结果略差于基于 UltraWan-1K 的 LoRA 模型。考虑到训练成本,研究团队推荐使用基于 LoRA 的 UltraWan-1K 方案。
3、更高的 UltraWan-4K 模型在图像质量和时间稳定性相关的指标上表现更好。但其较低的帧率(推理使用 33 帧以确保时间超过 1 秒)导致某些指标与 UltraWan-1K 相比有所下降。
团队基于 42K 精选视频微调的 UltraWan-4K 模型,实现三大突破——原生 4K 生成:直接输出 4K(3840 × 2160)分辨率视频;语义精准控制:利用结构化描述实现镜头语言控制;资源高效:仅用 LoRA 轻量化训练,单卡可部署。
下图展示了定性的效果对比。官方的 Wan-T2V-1.3B 无法直接生成高分辨率 1K 视频,而 UltraWan 能够处理语义一致的 1K/4K 生成任务。
在 UltraVideo 中,通过调整分辨率、帧率和音频,它可以轻松适应任何超高清环境下的相关视频任务,例如探索低级 UHD 视频超分辨率、帧插值、编解码器,以及高级视频编辑、逐帧处理、音乐生成。
这项工作不仅填补了高分辨率视频生成研究中的重要空白,还通过新颖的数据集构建、先进的数据处理流程和精炼的模型架构推动了技术前沿,为未来 UHD 视频生成的突破奠定了基础。
团队计划在未来利用长时序子集深入探索长视频生成任务。团队表示,UltraVideo 已全面开源,同时也开源了 UltraWan-1K/4K LoRA 权重。
论文:https://arxiv.org/abs/2506.13691
项目主页:https://xzc-zju.github.io/projects/UltraVideo/
数据集:https://huggingface.co/datasets/APRIL-AIGC/UltraVideo
模型:https://huggingface.co/APRIL-AIGC/UltraWan
Demo 展示:https://www.youtube.com/watch?v=KPh62pfSHLQ
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见