传统语义分割好无趣好无聊,技能语义分割加入概念提示,好好玩,要爆了。(doge)
论文还在双盲评审阶段,作者匿名中,但标题暴露一切。
比如,输入 " 条纹猫 ",SAM 3 自己就能找出并分割图中所有带条纹的猫猫:
SAM 1 引入了基于点、框、掩码等视觉提示的交互式分割任务,开辟了分割模型的新范式;SAM 2 则在此基础之上,加入了对视频和记忆的支持。
这一次,SAM 3 让这种交互式分割更进一步:支持基于短语、图像示例等概念提示的多实例分割任务——对,捎带手突破了前代只能处理单个实例的局限。
论文中,SAM 3 的研究团队将这种新任务范式命名为PCS(Promptable Concept Segmentation)。
PCS:可提示概念分割
PCS 的定义是,给定图像或视频,模型能够基于短语、图像示例,或者两者结合的方式,分割其中所有匹配提示概念的实例。
相比于传统分割任务,PCS 强调:
开放性词汇:不局限于预定义的固定类别,支持用户输入任意名词短语作为分割目标;
全实例分割:找到并分割所有符合提示的实例,在视频中,还能保持不同帧之间的身份一致性;
多模态提示:支持多种提示输入,包括文本提示、视觉提示,以及两者结合的方式;
用户交互:允许用户通过交互进行分割结果的精细优化。
新架构设计
SAM 3 为实现 PCS 设计了新的架构。
同时,引入了Presence Head模块,解耦物体的识别(是什么)和定位(在哪里)任务——
在传统对象检测框架中,模型往往需要同时判断目标是否存在、位置在哪里,这可能导致冲突,尤其是在多实例分割任务中容易出问题。
Presence Head 将两者分开处理,从而进一步提升了模型的检测精度。
大规模数据引擎
为了改进 PCS,研究团队还专门构建了一个可扩展的数据引擎,生成覆盖 400 万独特概念标签、5200 万经过验证的掩码的训练数据集。
数据引擎由多阶段构成,能够逐步提升数据的多样性和难度。
整个构建过程中人类和大语言模型会相互检查彼此的工作,保证高质量的同时提升了标注的效率。
为了评估模型在开放词汇分割任务中的性能,论文还提出了SA-Co(Segment Anything with Concepts)基准。
SA-Co 包含 214K 独特概念、124K 图像和 1.7K 视频,概念覆盖范围能达到现有基准的 50 倍以上。
实验结果
实验结果表明,SAM 3 在可提示分割任务中刷新了 SOTA。
在 LVIS 数据集的零样本分割任务中,SAM 3 的准确率达到了 47.0,比此前的 SOTA 38.5 提升不少。
在新的 SA-Co 基准测试中,SAM 3 的表现至少比基线方法强 2 倍。
比如分割图片中 " 坐着但没拿礼物盒的人 "。
大模型会先拆解需求,比如先找坐着的人,再排除拿礼物盒的人,然后给 SAM 3 发指令。
结果显示,SAM 3+MLLM 的组合比专门做推理分割的模型效果还要好,并且无需专门的数据做训练。
不过,论文也指出,SAM 3 难以通过零样本的方式,将能力泛化到如医疗图像、热成像之类的细分领域。
视频分割任务中,遇到多目标场景,模型的实时性能会下降,需要多 GPU 并行处理。
论文地址:
https://openreview.net/forum?id=r35clVtGzw
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情
企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与
一键关注 点亮星标
科技前沿进展每日见