可以输出语义的「分割一切模型 2.0」来了!
一次交互,「分割 + 识别 + 解释 + 描述」全搞定,同时支持图像、视频和长视频,文本 &Mask 同时输出!
由港中文 MMLab、港理工、北京大学等机构开源的PAM(Perceive Anything Model)模型,能够在保留 SAM2 分割一切、追踪一切能力的基础上,同时输出丰富的语义信息。
实验结果表明,PAM 仅使用3B 参数,就在多个图像和视频理解基准上全面刷新或逼近 SOTA,且具备更优的推理效率和显存占用,真正实现性能与轻量的统一。
所有数据均已完全开源。
SAM2 拥有强大的分割能力,可以 " 分割一切物体 ",在视频中能够高效追踪任意目标,表现惊艳!
但它也有一个明显的局限:无法提供定位目标的任何语义信息(比如物体是什么、有何功能、处于什么状态等)。
一些最新的Video LLM模型尝试结合 VLM 和 SAM2 的强大视觉提示能力,进行视频理解。然而:
这些模型往往无法直接输出分割结果,或需要额外接入 segment 模型,流程复杂;
模型体量通常非常庞大,对计算资源要求高,不适用于轻量化、快速响应的实际场景(如 AR/VR、移动端推理等)。
在图像任务中,PAM 支持一次点击即可输出选中区域的:
类别(Label)
解释(Explain)
精细描述(Caption)
在视频任务中,PAM 同样支持区域理解:
整段描述(Caption)
流式描述(Streaming Caption):连续事件追踪 + 动态叙述
只需要用户的一次点击,PAM 就可以并行输出 mask 和文本,在许多应用场景下都具有潜力!
效果展示:图片 / 短视频 / 长视频
对于较短视频,用户选中特定物体后,PAM 可以追踪并分割该物体,同时输出该物体的事件描述。
而对于长视频,PAM 在追踪分割用户选中物体的同时,会根据事件的变化,动态地输出流式描述,类似实时字幕。
工作原理:模型框架 + 数据集
通过 SAM2 分割骨架 +Semantic Perceiver+LLM并行解码,在保证轻量高效的前提下,实现了分割 mask 和语义信息并行输出的图像 / 视频区域级理解。
基于此方法,PAM 只使用了1.5B/3B参数的 LLM head,就可以输出非常丰富和鲁棒的语义信息。
图像数据:精细三连注释
使用 SoM(Set of Masks)方法精准定位目标区域 **,结合强大的闭源 VLM(如 GPT-4o)生成三类语义信息:
类别(Label)
解释(Explain)
描述(Caption)
每个物体不仅知道 " 是什么 ",还能解释 " 为什么 " 和 " 什么作用 "。
视频数据:Storyboard 驱动式理解
对每段视频抽取6 张关键帧,合成为 Storyboard 格式的高分辨率图像;
使用 SoM 高亮目标区域,作为提示引导;
利用闭源 VLM 进行多帧联合推理,生成细节丰富、时间感知强的事件描述。
流式视频数据:连贯事件字幕的首创实践
将长视频切分为多个连续不重叠的事件片段;
每段片段重复 Storyboard 流程;
并在生成描述时递归引入前一段文字内容,让字幕连贯衔接,保证上下文一致性。
实验分析:规模更小、性能更好
此外,PAM-3B 在 Total-Text 上超过 VP-SPHINX-13B 超过 3.5%,并在 COCO-Text 上达到相当的性能。
此外,PAM 首创了区域级的流式视频字幕能力,不仅能持续描述一个物体的行为,还能在连续事件中保持高度语义一致性,展现了强大的实际应用潜力。
论文地址:https://arxiv.org/abs/2506.05302
项目主页:https://perceive-anything.github.io/
GitHub Repo:https://github.com/Perceive-Anything/PAM
Model CKPT:https://huggingface.co/Perceive-Anything/PAM-3B
Dataset:https://huggingface.co/datasets/Perceive-Anything/PAM-data
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见