APP下载

关于ZAKER

合作

量子位 1小时前

3B 模型逆袭 7B 巨头！Video-XL-Pro 突破长视频理解极限，大海捞针准确率超 98%

3B 模型超越 Meta 7B 模型，超长视频理解 SOTA 刷新了！

来自上海交通大学、北京智源研究院、特伦托大学的联合研究团队推出了 Video-XL-Pro，实现近一万帧视频的单卡处理，大海捞针准确率超 98%。

现有的多模态大模型在超长视频训练和应用中仍存在显著瓶颈：一方面，难以大规模训练超长视频；另一方面，在处理长视频时，仍然面临性能差和效率低的双重挑战。

对此，Video-XL-Pro创新采用 " 重构式 token 压缩 " 技术，并且使用较少的训练数据，在多个基准评测上超越了之前 Meta 发布的 7B 模型 Apollo-7B，以及同尺寸的知名开源模型Qwen2.5-VL-3B、InternVL2.5-4B等，项目代码，模型，训练数据均已开源。

模型结构

Video-XL-Pro 的核心在于其提出的重构性 token 压缩技术（ReCoT），该技术通过自监督学习生成全面且紧凑的视频 token，显著提升了视频理解的效率和质量。

ReCoT 包含两个关键组件：动态 token 合成器（DTS）和语义引导掩码（SGM）。

DTS 通过轻量级的时空注意力块对 token 进行压缩，有效捕捉视频中的动态运动；而 SGM 则通过自适应掩码策略，减少冗余视觉 token，从而优化重构学习过程。

这些创新设计使得模型在仅需 3B 参数的情况下，性能超越了许多 7B 参数的模型。

此外，为了增强模型对超长视频理解能力，模型还引入了查询选择器，使得在输入上下文超过限制时模型能够选择性关注和查询有关的片段。

为了进一步提升训练效率，研究团队还提出了视频数据集剪枝策略。

这些方法通过筛选高质量视频数据，显著降低了计算成本，同时保障模型的性能。

评测基准

Video-XL-Pro 选用多个主流视频理解评测基准，对模型进行了全面的评测，对于长视频理解任务，评测了LongVideoBench、MLVU、Video-MME，TempCompass 和 VNbench。

其中 MLVU，VideoMME，LongVideoBench 集中在评测模型的长视频理解能力。

VNbench 则是兼顾长视频与短视频，TempCompass 则是评测模型在视频中的时间理解能力。

如表 1 所示，Video-XL-Pro 在多个主流的长视频评测基准上展现了卓越性能。

在 MLVU 的 Dev、Test，以及 TempCompass 上，VIdeo-XL-Pro 均斩获了第一名，不光超越同参数量的知名开源模型qwen2.5-VL-3B 和 internVL2.5-4B等，也超越了一众 7B 模型，包括 Meta 发布的 7B 模型Apollo-7B等。

在 VideoMME，LongVideoBench，Video-XL-Pro 也超越了绝大部分同参数量模型，并达到与 7B 模型相当的水准。

最后在 VNbench 上，VIdeo-XL-Pro 也取得有竞争力的结果，说明模型在增强长视频理解能力的同时，也能兼顾短视频能力。

值得注意的是，VIdeo-XL-Pro 只使用了相对较少的 SFT 数据（1M），低于 Apollo 的 3.2M，远低于 Qwen2.5-VL，InternVL2.5 等知名开源模型，进一步说明了方法的有效性。

Video-XL-Pro 还进行了视频「大海捞针」测试来评估其处理超长上下文的能力。

得益于 ReCot 模块和查询选择器的设计，使得模型可以输入极长的上下文序列，在相同硬件条件下，模型可以以 8192 帧为输入，达到了近 99%的准确率。

时间理解

为了更全面的评估模型性能，我们还选用了经典时间评测基准 Charades-STA 和最新的长视频时间评测基准 V-STaR。

V-STaR 注重在极长视频中找出与问题相关的片段，精准回答片段时间范围，现有开源模型在 V-STaR 中很难取得很好的成绩，即便是 Qwen2.5-VL-7B，mIoU 得分也仅为 11.48。

Video-XL-Pro-3B 在最新的 V-STaR 长视频时间基准测试斩获 25.07 的 mIoU 得分，在 IoU>0.7 时仍能达到 15.58 的准确率，远上超越一众知名开源模型，包括InternVL2.5-8B和Qwen2.5-VL-7B，并超越上一代冠军Video-LLaMA3，展现了卓越的长视频时间理解能力，并且在 Charades-STA 上也有着不俗的表现。

总结

该工作提出了 Video-XL-Pro 模型，利用自监督学习压缩视觉标记，使用相对少量数据下训练的 3B 模型就能获得超越大多数 7B 模型的性能。

Video-XL-Pro 在多个主流长视频理解基准评测上表现优异。

模型有望在多个长视频理解的应用场景中展现出广泛的应用价值，成为得力的长视频理解助手。

目前，模型、代码、训练数据均已开源，以促进长视频理解社区的合作和发展。

论文链接：

https://arxiv.org/abs/2503.18478

代码链接：

https://github.com/VectorSpaceLab/Video-XL/tree/main/Video-XL-Pro

模型链接：

https://huggingface.co/MINT-SJTU/Video-XL-Pro-3B

训练数据链接：

https://huggingface.co/datasets/MINT-SJTU/Video-XL-Pro-Training

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

学术投稿请于工作日发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容

附上论文 / 项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

点亮星标

科技前沿进展每日见

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频剪辑

AI视频剪辑

AI智能客服

AI工具箱

AI写稿助手

AI口语陪练

我的订阅

3B 模型逆袭 7B 巨头！Video-XL-Pro 突破长视频理解极限，大海捞针准确率超 98%

宙世代

一起剪

相关阅读

苹果激进！曝20周年iPhone首发真全面屏

美国指责中国用龙虾、假孕妇走私AI芯片！NVIDIA都看不下去了

绕过美国禁令！NVIDIA来中国30年重要决定：中国特供AI芯片新品最快六月见

你可以相信Intel独立显卡！第三代Xe3已进入预验证

特斯拉发布专用U盘：512G售价599元

曝iPhone 18发布时间延期：为折叠屏让路

谷子热蔓延影剧综：授权费翻十倍，收藏卡成标配，速度决定一切

中星微发布最新AI芯片：可单芯片运行大模型

首款面向开发者的开源鸿蒙PC亮相：芯片、软件全国产

首款纯血nova来了！曝华为nova 14系列是近三代最强手机

空气炸锅里的纸，真的劝你别乱买！

“英伟达已向中国三家企业通报”

TWS耳机最新选购指南：从韶音到Bose，这8款闭眼入不踩雷

胖东来投诉后，抖音处理“柴怼怼”账号

跨国企业与本土供应商：中国方案，全球战场

最新评论

量子位