APP下载

关于ZAKER

合作

量子位 13小时前

Meta「分割一切」3.0 曝光！技能语义分割加入概念提示，好好玩，要爆了

传统语义分割好无趣好无聊，技能语义分割加入概念提示，好好玩，要爆了。（doge）

SAM 3——第三代 " 分割一切 " 模型刚刚被发现，已经悄然投稿 ICLR 2026。

论文还在双盲评审阶段，作者匿名中，但标题暴露一切。

简单来说，就是在这个官方新版中，分割模型终于能听懂人话了：只要说出想要的东西，SAM 3 就能在图像 / 视频中分割出对应实例。

比如，输入 " 条纹猫 "，SAM 3 自己就能找出并分割图中所有带条纹的猫猫：

值得一提的是，SAM 3 处理一张含 100 多个物体的图片仅需 30ms，对视频也有近实时处理能力。

能听懂人话的 SAM

SAM 1 引入了基于点、框、掩码等视觉提示的交互式分割任务，开辟了分割模型的新范式；SAM 2 则在此基础之上，加入了对视频和记忆的支持。

这一次，SAM 3 让这种交互式分割更进一步：支持基于短语、图像示例等概念提示的多实例分割任务——对，捎带手突破了前代只能处理单个实例的局限。

论文中，SAM 3 的研究团队将这种新任务范式命名为PCS（Promptable Concept Segmentation）。

PCS：可提示概念分割

PCS 的定义是，给定图像或视频，模型能够基于短语、图像示例，或者两者结合的方式，分割其中所有匹配提示概念的实例。

相比于传统分割任务，PCS 强调：

开放性词汇：不局限于预定义的固定类别，支持用户输入任意名词短语作为分割目标；

全实例分割：找到并分割所有符合提示的实例，在视频中，还能保持不同帧之间的身份一致性；

多模态提示：支持多种提示输入，包括文本提示、视觉提示，以及两者结合的方式；

用户交互：允许用户通过交互进行分割结果的精细优化。

新架构设计

SAM 3 为实现 PCS 设计了新的架构。

主要是在检测与分割模块上，SAM 3 的检测器基于 DETR（Deformable Transformer）架构，能够根据语言和视觉提示生成实例级的检测结果。

同时，引入了Presence Head模块，解耦物体的识别（是什么）和定位（在哪里）任务——

在传统对象检测框架中，模型往往需要同时判断目标是否存在、位置在哪里，这可能导致冲突，尤其是在多实例分割任务中容易出问题。

Presence Head 将两者分开处理，从而进一步提升了模型的检测精度。

大规模数据引擎

为了改进 PCS，研究团队还专门构建了一个可扩展的数据引擎，生成覆盖 400 万独特概念标签、5200 万经过验证的掩码的训练数据集。

数据引擎由多阶段构成，能够逐步提升数据的多样性和难度。

整个构建过程中人类和大语言模型会相互检查彼此的工作，保证高质量的同时提升了标注的效率。

SA-Co 基准

为了评估模型在开放词汇分割任务中的性能，论文还提出了SA-Co（Segment Anything with Concepts）基准。

SA-Co 包含 214K 独特概念、124K 图像和 1.7K 视频，概念覆盖范围能达到现有基准的 50 倍以上。

不过需要说明的是，SAM 3 对语言的处理还局限于简单的短语提示，不支持复杂的语言表达，并不具备多模态大模型的语言生成、复杂语言理解和推理能力。

实验结果

实验结果表明，SAM 3 在可提示分割任务中刷新了 SOTA。

在 LVIS 数据集的零样本分割任务中，SAM 3 的准确率达到了 47.0，比此前的 SOTA 38.5 提升不少。

在新的 SA-Co 基准测试中，SAM 3 的表现至少比基线方法强 2 倍。

另外，在针对视频的 PVS（Promptable Visual Segmentation）任务中，SAM 3 的性能也优于 SAM 2。

研究人员还把 SAM 3 和多模态大模型（MLLM）相结合，探索解决更复杂的任务需求。

比如分割图片中 " 坐着但没拿礼物盒的人 "。

大模型会先拆解需求，比如先找坐着的人，再排除拿礼物盒的人，然后给 SAM 3 发指令。

结果显示，SAM 3+MLLM 的组合比专门做推理分割的模型效果还要好，并且无需专门的数据做训练。

在 H200 GPU 上，SAM 3 处理含 100 多个实体的单张图像只需要 30ms 的时间。在视频任务中，推理延迟随着目标数量线性增加，能在约 5 个并发目标的情况下维持接近实时的性能。

不过，论文也指出，SAM 3 难以通过零样本的方式，将能力泛化到如医疗图像、热成像之类的细分领域。

视频分割任务中，遇到多目标场景，模型的实时性能会下降，需要多 GPU 并行处理。

论文地址：

https://openreview.net/forum?id=r35clVtGzw

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

年度科技风向标「2025 人工智能年度榜单」评选报名开启啦！我们正在寻找 AI+ 时代领航者点击了解详情

企业、产品、人物 3 大维度，共设立了 5 类奖项，欢迎企业报名参与

一键关注点亮星标

科技前沿进展每日见

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

锚点价、复活机制首现耗材国采：防止“低价抢标”，确保临床供应

21世纪经济报道 5小时前

蜜雪冰城跨界啤酒，2.97亿收购福鹿家背后的“酒局”野心

钛媒体 5小时前

AI服务器+人形机器人+消费电子散热模组平台型公司，深度受益数据中心液冷量价齐升及机器人产业趋势，部分产品已经交付

财联社 7小时前

聚变堆关键部件！“夸父”偏滤器原型部件研制成功

快科技 7小时前

Intel Lunar Lake首次进入三防平板：要价高达2.6万！

快科技 7小时前

Windows深色模式终于进一步完美！运行对话框变黑了

数码测评 9小时前

有棵树之争落幕，跨境电商“铺货模式”或终结

21世纪经济报道 8小时前

用户吐槽全新Pocket 3机身有划痕大疆回应降价后被指品控下降

快科技 9小时前

滴普科技通过聆讯，驶入企业级AI蓝海暗流

钛媒体 9小时前

微短剧主流化，聪明人已经开始“拼”话题了

网易娱乐 3小时前

vivo X300 Pro 评测：“灭霸”进化，重新定义年度影像旗舰

硅星人 4小时前

中国移动，全面上线eSIM手机办理

读览精华 4小时前

微信员工回应互删好友会删除一切网友：挺好的就当从来没认识过

数码测评 12小时前

百度世界2025定档11月13日，全面解码AI应用的新机会与新方向

雷峰网 5小时前

页面卡顿无法刷新客服回应小红书崩了：已在尽快处理

快科技 11小时前

量子位

觉得文章不错，微信扫描分享好友

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅