7B 打败 o3、GPT-5！医学 AI 智能体让模型学会“看哪里、怎么看”

医学 AI 会写解释，但不代表它真的 " 看到 " 了关键证据。

过去的医学多模态模型，大多是把一张影像或一段视频编码成视觉特征，然后让大模型生成答案与解释。

但问题在于——一个微小病灶、一个边界变化、一段几秒钟的手术动作，往往就决定了答案是否成立。

而模型 " 被动接收 " 视觉上下文时，很容易看错区域、漏看病灶。

为应对这一问题，上海创智学院 LeapQuest 团队联合浙江大学、上海交通大学、复旦大学，一口气拿出了两篇 ICML 2026接收论文，首次把Think with Images/Think with Videos范式应用在医学 AI 领域：

模型不再只是看完图像或视频后生成解释，而是在推理链中主动调用视觉工具，重新观察关键区域或关键时刻，并用新证据修正判断。

这意味着，视觉不再只是输入，视觉证据本身成了模型思考过程的一部分。

两篇工作的核心关键词如下：

两篇工作不是孤立模型升级，而是共同提出医学 AI 的新范式：

让视觉证据进入模型的中间思考过程，把 " 解释 " 从事后语言生成推进为推理过程中的证据查证。

△Ophiuchus：面向医学图像的 tool-augmented Think with Images

△MedScope：面向临床长视频的 Think with Videos 不是更会 " 写解释 "，而是开始会 " 用视觉证据思考 "

医学 AI 过去最常见的工作方式，是把一张影像或一段视频编码成视觉特征，然后让大模型生成答案与解释。

问题在于，解释看起来完整，并不代表模型真的看到了关键证据。尤其在医学场景里，一个微小病灶、一个边界变化、一段几秒钟的手术动作，往往就决定了答案是否成立。

Ophiuchus 和 MedScope 共同把这个问题向前推进了一步：多模态模型不再只是 " 被动接收视觉上下文 "，而是在推理过程中主动决定是否需要更多证据、应该看哪里、应该回看哪一段，并把工具返回的观察结果纳入后续推理。

这就是医学 AI 领域首次被系统化提出的 "think with images/think with videos" 范式：视觉不再只是输入，视觉证据本身成为模型思考过程的一部分。

△Think with ImagesThink with Images：让模型在图像诊断中 " 重新看一眼 "

Ophiuchus 的切入点非常直接：现有医学多模态大模型虽然能写出逐步推理，但遇到需要细粒度视觉证据的任务时，仍然容易 "看错区域、漏看病灶、误把正常结构当异常"。

这不是单纯语言能力不足，而是视觉交互机制不足。

因此，Ophiuchus 将大模型改造成一个能与医学图像工具协同的视觉智能体。

它可以根据当前推理状态，决定是否调用外部视觉工具：用SAM2做精细分割，用BiomedParse根据文字提示定位医学结构，用Zoom-in放大关键区域。

工具调用后的输出不是孤立结果，而会以observation的形式回到推理链，驱动下一步判断。

更关键的是，Ophiuchus 并不是把工具 " 外挂 " 在模型外面，而是让工具成为推理链的一部分。

模型要学会何时调用工具、选择哪个工具、如何解释工具输出，以及当工具结果不可靠时如何修正策略。

这使得模型从 " 会调用工具 " 走向 "会用工具思考"。

△Ophiuchus 技术框架

Ophiuchus 的价值不只是让医学大模型多了几个视觉工具，而是让模型学会在诊断过程中主动 " 看哪里、怎么看、看完如何修正 "。

从闭源 SOTA 到医学 Agent：Ophiuchus 用结果证明 " 看得更细 " 才是关键

在同样外部工具配置下，Ophiuchus-7B在 8 个 VQA benchmark 上取得68.0的平均分，高于OpenAI-o3 的 62.2、Gemini 2.5 Pro 的 61.8和GPT-5 的 59.9。

在工具使用准确性评估中，Ophiuchus 达到97.9%的平均工具调用准确率。

这些结果背后的含义，比 " 某个榜单第一 " 更重要：

当问题真正依赖局部结构、病灶边界和细胞级证据时，模型大小或语言推理并不是唯一瓶颈。

医学 AI 需要一种能让视觉证据不断进入推理过程的机制。

Think with Videos：从 " 看图思考 " 走向 " 回看关键时刻 "

如果说 Ophiuchus 解决的是医学图像中的局部证据问题，那么 MedScope 则把这一范式推进到更难的长视频场景。

长临床视频的挑战在于：关键证据不仅细，而且稀疏；不仅要看对内容，还要看对时间。

一个手术动作、一个内镜视野变化、一个器械进入与离开的瞬间，可能只持续几秒，却决定模型是否真的理解了临床过程。

MedScope 提出的 "think with videos" 不是让模型把整段视频一次性压缩成上下文，而是模拟临床医生的观察方式：

先快速建立全局理解，再回到可疑时间窗，用crop_video截取片段，用get_frame获取关键帧，最后把这些局部观察结果整合进答案。

△Textual CoT 与 Visual CoT 的差别

这使 MedScope 的推理过程天然具备可审查性：模型为什么回答这个结果，不只看它 " 说了什么 "，还可以看它 "回看了哪一段视频、找到了哪些帧、这些证据是否支持结论 "。

△MedScope 框架 ClinVideoSuite 与 GA-GRPO：让视频模型学会 " 找证据 "，而不只是 " 猜答案 "

为了让模型真正学会这种行为，MedScope 构建了ClinVideoSuite：包含635K时间戳密集 caption、254K证据关联 QA、34K视觉 CoT 轨迹，以及用于强化学习的交互式训练环境。

数据不是简单问答，而是强调问题必须依赖局部时间窗中的视觉证据。

训练上，MedScope 采用三阶段路线——

第一阶段进行临床推理 warm-up，学习医学语义和长程视频理解；

第二阶段用 visual-CoT cold-start SFT 教会模型何时需要更多证据、如何调用工具；

第三阶段用 GA-GRPO 强化时序对齐的工具使用，通过 grounding-aware reward 和 evidence-modulated advantage，让模型更偏向检索真正支持结论的视觉片段。

△ClinVideoSuite 数据合成管线

在 SVU-31K、ClinVideo-Eval 等评测中，MedScope 在多粒度视频理解、细粒度时序推理和 grounded VQA 上取得开源模型中的SOTA。

论文还显示，去掉evidence reward会显著降低定位质量，例如R@0.5 从 40.1 下降到 33.2，mIoU 从 4.3 下降到 38.8，说明答案级监督不足以教会模型可靠地选择证据。

真正的范式变化：视觉从 " 输入 " 变成 " 思维过程 "

把两篇工作放在一起看，最重要的不是 Ophiuchus 处理图像、MedScope 处理视频，而是它们共同定义了一种新的医学多模态智能范式：

模型的推理过程不再只是语言 token 的展开，而是语言、工具、图像区域、视频片段和证据反馈之间的闭环交互。

医学 AI 的下一个关键能力，不是生成更长的解释，而是在给出解释前主动寻找、验证并引用视觉证据。

Ophiuchus 和 MedScope 把这一点从方法论变成了可训练、可评测、可扩展的技术路线。

为什么这可能成为医学 AI Agent 的关键拐点

医学任务与通用视觉问答最大的不同，是每一个结论都需要证据链。

放射科医生会放大病灶边缘，病理医生会寻找细胞形态，外科医生会回看关键操作，内镜医生会追踪病灶在时间中的出现与消失。

也就是说，临床视觉推理天然就是交互式、证据驱动和可复核的。

"Think with Images/Videos" 的意义，正是让医学 AI 向这种真实临床认知方式靠近。

它不再满足于一次性预测，而是在模型内部建立 "假设 - 查证 - 修正 - 回答" 的循环。

这为临床可信 AI 提供了三类重要能力：更少幻觉、更强可解释性、更适合复杂流程。

医学 AI 开始真正 " 边看边想 "

从 Ophiuchus 到 MedScope，可以看到医学多模态大模型正在发生一次底层范式转向：

从看图、看视频，到在推理过程中持续地看；从输出答案，到主动寻找证据；从语言链条，到视觉证据参与的多模态思维链。

这也解释了为什么 "think with images/videos" 值得被单独提出。

它不是一个更花哨的工具调用框架，而是在医学 AI 里重新定义了 " 推理 " 的边界：推理不只是语言生成，而是围绕证据进行的动态视觉探索。

当模型能够在思考中主动回看影像、放大病灶、截取视频、验证证据，医学 AI 才真正从 " 会回答问题 " 走向 " 会进行临床视觉推理 "。

LeapQuest［起跃界问］是上海创智学院面向下一代医学 AI Agent、视觉推理与多模态大模型的青年交叉研究团队，聚焦 Visual Reasoning、Agentic RL、Clinical Tools，推动模型从 " 生成答案 " 走向基于证据的观察、验证与行动。

项目 GitHub：

MedScope｜Think with Videos：https://github.com/SII-WenjieLisjtu/MedScope

Ophiuchus｜Think with Images：https://github.com/SII-zyj/Ophiuchus

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

7B 打败 o3、GPT-5！医学 AI 智能体让模型学会“看哪里、怎么看”

宙世代

一起剪

相关阅读

带摄像头的 AI 耳机能替代 iPhone 吗？我戴了 72 小时之后有了答案

北大打造真3D EDA工具原型：可适配华为韬定律逻辑折叠

1.89亿！富创精密拟收购上海日扬65%股权 切入半导体真空阀赛道

都猜错了！安卓首款阔折叠定名三星Galaxy Z Fold8：对标华为Pura X Max

韩综指再创新高：AI造富引恐慌性入场，杠杆ETF恐放大隐忧？

Model 3 Plaid版有望！特斯拉高管确认：正研究三电机版

蔡司谢磊：不仅深耕长三角与大湾区，还要与中国企业一起走出去

卢伟冰：AI是手机行业最大的增量机会 今年七八月将发布新一代OS

当AI成为你的“同事”，组织真的开始变了

昆仑万维天工AI发布SkyClaw-v1.0 支持百万token上下文

取消部分保底？“短剧万播五块”冲上热搜：AI漫剧洗牌进行时

Meta借AI重塑劳动力：裁撤8000人，七千员工转岗AI部门

互联网监测组织称伊朗开始部分恢复互联网连接

空调 618 史上最「热」？高温撞上铜价暴涨，「纯铜」意外成了最大卖点

OpenAI广告新策略：从小客户切入，谋求规模化发展

最新评论

量子位

热门推荐

企业资讯

1.89亿！富创精密拟收购上海日扬65%股权切入半导体真空阀赛道

卢伟冰：AI是手机行业最大的增量机会今年七八月将发布新一代OS