让大模型“边看边改”，视觉分割准确率直接上涨 9%

智能体时代，如何让视觉分割更准确？

复旦、创智联合推出 RSAgent，给出最新答案——让多模态大模型通过多轮工具调用生成准确掩码。

相关工作已入选 ICML 2026。

视觉分割，一直是个 " 说起来简单，但做起来容易失手 " 的任务。

给模型一张图、一句话，让它把目标区域的像素圈出来——听起来直接，但一旦目标含糊、被遮挡，或者需要推理才能定位，一次性猜出正确的掩码就变得相当困难。

RSAgent 团队认为，现有方法缺少的，不是更强的分割头，而是 " 确认和纠错 " 的过程。

为此，他们推出了 RSAgent 这个让多模态大模型通过多轮工具调用，完成文本引导分割的智能体框架。

模型不再一次性输出 mask，而是先观察图像、进行推理、调用视觉工具、读取反馈，再根据历史结果迭代修正，最终生成更可靠的准确掩码。

实验结果显示，RSAgent 在 ReasonSeg 测试集上的 gIoU 相比 Seg-Zero-7B 提升了 9.0 个百分点，在 RefCOCOg 数据集上取得了 81.5% 的平均 cIoU，并生成了 5000 条以上的多轮推理分割轨迹。

开放语义分割，难在哪里

多模态大语言模型（MLLM）已经能够描述图像、回答问题、理解物体关系，但真实视觉系统需要的不只是文字答案。

交互式标注、机器人感知、设计编辑、工业质检和科学图像分析都要求模型把语言理解落实到像素区域。

也就是说，模型必须在 " 语义理解 " 和 " 准确掩码 " 之间完成可靠转换。

开放语义文本引导分割的挑战在于，输入指令并不总是简单的类别名——

用户可能说 " 图中左侧正在被人拿起的物体 "，也可能说 " 找出湍急水流中保障个人安全的装备 "。

前者需要空间关系，后者需要场景常识和用途推理。

模型如果只进行一次前向预测，就很难验证自己是否选对了目标。

此前路线的短板并不是 " 不能产生 mask"，而是 " 缺少确认与纠错过程 "。

一旦最初定位偏离、点位提示落在背景、候选区域只覆盖局部，模型往往没有机会重新观察、缩放视图、读取候选结果并调整策略。

RSAgent 正是针对这一痛点，把分割任务从静态预测变成动态交互。团队表示：

痛点不是单纯追求更复杂的分割头，而是让模型在开放语义任务中具备 " 先判断、再行动、看反馈、再修正 " 的能力。

怎么解决？让 MLLM 学会 Reason and Act

RSAgent 的关键不是把 MLLM 直接改造成一个 mask decoder，而是让它成为能够调度视觉工具的智能体。

模型在每一轮接收原图、文本指令和历史观察，输出结构化推理与 tool call；工具返回局部视图、候选掩码或 overlay；模型再基于这些反馈决定继续调用工具、调整提示，或者提交最终答案。

下图为 LISA、Seg-Zero 与 RSAgent 的对比。RSAgent 通过多轮工具调用持续定位、观察和修正。

而 RSAgent 总体框架如下，包括多轮交互、工具调用、观察反馈、cold-start SFT 与 agentic RL。

具体技术模块及其作用如下：

在数据层面，RSAgent 通过自动合成与严格筛选构建训练轨迹。

论文中 cold-start SFT 数据约包含 5K 条高质量多轮推理轨迹；RL 阶段使用约 2K 个 RL 示例，并额外加入 8K 个 RefCOCOg 训练样本，使模型在交互环境中学习更高回报的工具调用路径。

下图为数据管线。系统生成问题、合成多轮轨迹并进行过滤，以获得高质量训练样本。

团队表示，真正的关键不只是 " 调了工具 "：RSAgent 把推理、工具、反馈与奖励闭合为一个训练体系。

模型既要理解目标，也要学会自适应地缩放、提示、分割和停止，最终把开放语义理解落实为准确掩码。

具体来看，RSAgent 的一次交互可以理解为四步循环：

Observation 读取图像与历史结果；

Thought 用自然语言分析当前候选区域是否满足指令；

Action 选择工具和像素提示；

Feedback 接收工具输出并写入上下文。

这个循环让模型不再依赖单次判断，而是具备逐步验证的机制。

这种机制尤其适合关系型、属性型和隐含推理型指令。

例如目标可能很小、被遮挡，或需要根据动作、用途和相对位置来判定。

RSAgent 可以先粗定位，再查看局部区域，随后依据候选掩码的偏差重新指定点或框。

相比一次性预测，它多了一个可审查的中间过程。

训练策略上，cold-start SFT 解决 " 会不会按格式工作 " 的问题，让模型掌握工具调用语法和基本反思流程；agentic RL 解决 " 怎样做得更好 " 的问题，通过奖励信号优化多轮路径。

二者组合，使 RSAgent 既能稳定输出结构化结果，也能在复杂开放语义样本上学习更优决策。

实验结果：ReasonSeg 与 RefCOCOg 上取得领先表现

实验使用 Qwen2.5-VL-7B-Instruct 作为基础模型，SAM2-large 作为分割工具。

团队在 RefCOCO 系列和 ReasonSeg 上进行系统评测，并与传统视觉语言分割器、单次 MLLM 分割方法、显式 CoT/RL 分割方法和多轮工具调用 agent 等多类方法比较。

下图能够说明，RSAgent 在 RES 和 ReasonSeg 基准上取得领先表现。

具体评测结果如下：

在 ReasonSeg test 上，RSAgent 达到 66.5% gIoU，相比 Seg-Zero-7B 的 57.5% 提升 9.0 个百分点；

在 RefCOCOg 上，RSAgent 达到约 81.5% 平均 cIoU，test split 为 81.8。

对于依赖开放语义推理的目标分割任务，这说明模型不仅能理解描述，还能更稳地把理解转化为准确掩码。

消融实验显示，提升并非来自单一模块。

未训练的 tool-agent 在 ReasonSeg test 上只有 30.1 cIoU；加入 cold-start SFT 后提升至 55.4；仅 RL 为 54.3；完整的 cold-start SFT+RL 达到 57.9。

这表明，先让模型学会规范工具调用，再通过强化学习优化长程决策，是 RSAgent 成立的关键。

下图为最大工具调用轮数消融。适当增加轮数可提升表现，但过长上下文可能带来冗余与不稳定。

奖励设计同样关键。

移除 final reward、process reward 或 format reward 都会造成性能下降；

其中去掉 final reward 后，ReasonSeg test 从 57.9 降至 48.3，说明最终掩码质量仍是核心目标。

process reward 则鼓励模型在中间步骤持续改进，而不是盲目增加工具调用次数。

让视觉大模型进入可验证的像素行动空间

RSAgent 的价值不只是刷新指标。

更重要的是，它展示了一条从 " 看图问答 " 走向 " 视觉行动 " 的路径：

模型可以围绕文本目标持续观察、调用工具、接受反馈、修正假设，并把最终判断落实到图像像素。

这类能力对交互式视觉系统具有通用意义。

对于数据标注，它有望减少人工反复试错；

对于机器人感知，它让模型在执行前重新确认目标区域；

对于设计编辑和内容生产，它可以把自然语言意图转化为更稳定的可编辑区域；

对于科学图像分析，它提供了可回看、可复核的中间过程。

从更大的趋势看，RSAgent 把开放语义理解、工具调用和像素级执行连接起来。

它说明多模态大模型不必停留在 " 回答图像问题 "，也可以在视觉空间中主动探索、试错和修正。

这个方向将视觉智能体推进到更接近真实任务的形态。一言以蔽之：

RSAgent 证明了多模态大模型可以从 " 结合文本与图像内容 " 进一步走向 " 在像素空间中推理、行动和自我修正 "。

最后介绍一下论文团队。

作者团队来自复旦大学、上海创智学院、上海交通大学等单位，论文共同一作为何星旗、张钰杰。

何星旗为复旦大学一年级硕士生，研究方向为 Vision-Language Model Reasoning、Reinforcement Learning。

张钰杰为上海创智学院、复旦大学联合培养博士生，主要研究方向为 Vision-Language Model Reasoning、Reinforcement Learning 与 Large Language Models。

论文：https://arxiv.org/abs/2512.24023

GitHub：https://github.com/Nicola777-ai/RSAgent

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

让大模型“边看边改”，视觉分割准确率直接上涨 9%

宙世代

一起剪

相关阅读

“韬定律”：华为芯片的底层秘密

子公司签下60亿元算力协议 盛视科技上月称拟购买不超71亿元资产

黄仁勋：AI时代孩子学什么专业没那么重要 真正要紧的是会不会用AI

都猜错了！安卓首款阔折叠定名三星Galaxy Z Fold8：对标华为Pura X Max

卢伟冰：小米绝不会把内存涨价成本转嫁给消费者

黄仁勋发声：这种做法相当不负责任 我非常反感

6.4万 中国市场最贵辅助驾驶系统！特斯拉FSD已在国内灰度推送约5000台车

华为韬定律绕开EUV光刻机！老外集体热议：美国该更担忧了

机器人启蒙，需要一所能“犯错”的幼儿园

谷歌据称又将面临欧盟近十亿欧元重罚

美国银行上调苹果公司目标价 认为智能体AI带来巨大机遇

美国航空选定星链为500余架飞机提供机上无线网络服务

首发麒麟2026！华为Mate 90系列顶配搭载6.9英寸双层OLED屏

科瑞技术：目前海外半导体和光模块业务收入规模及营收占比较小

4月智能手机出货量同比增长12.3% 5G手机同比增长24.4%

最新评论

量子位

热门推荐

企业资讯

子公司签下60亿元算力协议盛视科技上月称拟购买不超71亿元资产

黄仁勋：AI时代孩子学什么专业没那么重要真正要紧的是会不会用AI

黄仁勋发声：这种做法相当不负责任我非常反感

6.4万中国市场最贵辅助驾驶系统！特斯拉FSD已在国内灰度推送约5000台车

美国银行上调苹果公司目标价认为智能体AI带来巨大机遇