医学 AI 会写解释,但不代表它真的 " 看到 " 了关键证据。
过去的医学多模态模型,大多是把一张影像或一段视频编码成视觉特征,然后让大模型生成答案与解释。
但问题在于——一个微小病灶、一个边界变化、一段几秒钟的手术动作,往往就决定了答案是否成立。
而模型 " 被动接收 " 视觉上下文时,很容易看错区域、漏看病灶。
为应对这一问题,上海创智学院 LeapQuest 团队联合浙江大学、上海交通大学、复旦大学,一口气拿出了两篇 ICML 2026接收论文,首次把Think with Images/Think with Videos范式应用在医学 AI 领域:
模型不再只是看完图像或视频后生成解释,而是在推理链中主动调用视觉工具,重新观察关键区域或关键时刻,并用新证据修正判断。
这意味着,视觉不再只是输入,视觉证据本身成了模型思考过程的一部分。
两篇工作的核心关键词如下:

让视觉证据进入模型的中间思考过程,把 " 解释 " 从事后语言生成推进为推理过程中的证据查证。


医学 AI 过去最常见的工作方式,是把一张影像或一段视频编码成视觉特征,然后让大模型生成答案与解释。
问题在于,解释看起来完整,并不代表模型真的看到了关键证据。尤其在医学场景里,一个微小病灶、一个边界变化、一段几秒钟的手术动作,往往就决定了答案是否成立。
Ophiuchus 和 MedScope 共同把这个问题向前推进了一步:多模态模型不再只是 " 被动接收视觉上下文 ",而是在推理过程中主动决定是否需要更多证据、应该看哪里、应该回看哪一段,并把工具返回的观察结果纳入后续推理。
这就是医学 AI 领域首次被系统化提出的 "think with images/think with videos" 范式:视觉不再只是输入,视觉证据本身成为模型思考过程的一部分。
Ophiuchus 的切入点非常直接:现有医学多模态大模型虽然能写出逐步推理,但遇到需要细粒度视觉证据的任务时,仍然容易 "看错区域、漏看病灶、误把正常结构当异常"。
这不是单纯语言能力不足,而是视觉交互机制不足。
因此,Ophiuchus 将大模型改造成一个能与医学图像工具协同的视觉智能体。
它可以根据当前推理状态,决定是否调用外部视觉工具:用SAM2做精细分割,用BiomedParse根据文字提示定位医学结构,用Zoom-in放大关键区域。
工具调用后的输出不是孤立结果,而会以observation的形式回到推理链,驱动下一步判断。

模型要学会何时调用工具、选择哪个工具、如何解释工具输出,以及当工具结果不可靠时如何修正策略。
这使得模型从 " 会调用工具 " 走向 "会用工具思考"。
Ophiuchus 的价值不只是让医学大模型多了几个视觉工具,而是让模型学会在诊断过程中主动 " 看哪里、怎么看、看完如何修正 "。
从闭源 SOTA 到医学 Agent:Ophiuchus 用结果证明 " 看得更细 " 才是关键
在同样外部工具配置下,Ophiuchus-7B在 8 个 VQA benchmark 上取得68.0的平均分,高于OpenAI-o3 的 62.2、Gemini 2.5 Pro 的 61.8和GPT-5 的 59.9。
在工具使用准确性评估中,Ophiuchus 达到97.9%的平均工具调用准确率。
这些结果背后的含义,比 " 某个榜单第一 " 更重要:
当问题真正依赖局部结构、病灶边界和细胞级证据时,模型大小或语言推理并不是唯一瓶颈。
医学 AI 需要一种能让视觉证据不断进入推理过程的机制。
Think with Videos:从 " 看图思考 " 走向 " 回看关键时刻 "
如果说 Ophiuchus 解决的是医学图像中的局部证据问题,那么 MedScope 则把这一范式推进到更难的长视频场景。
长临床视频的挑战在于:关键证据不仅细,而且稀疏;不仅要看对内容,还要看对时间。
一个手术动作、一个内镜视野变化、一个器械进入与离开的瞬间,可能只持续几秒,却决定模型是否真的理解了临床过程。
MedScope 提出的 "think with videos" 不是让模型把整段视频一次性压缩成上下文,而是模拟临床医生的观察方式:
先快速建立全局理解,再回到可疑时间窗,用crop_video截取片段,用get_frame获取关键帧,最后把这些局部观察结果整合进答案。
这使 MedScope 的推理过程天然具备可审查性:模型为什么回答这个结果,不只看它 " 说了什么 ",还可以看它 "回看了哪一段视频、找到了哪些帧、这些证据是否支持结论 "。
为了让模型真正学会这种行为,MedScope 构建了ClinVideoSuite:包含635K时间戳密集 caption、254K证据关联 QA、34K视觉 CoT 轨迹,以及用于强化学习的交互式训练环境。
数据不是简单问答,而是强调问题必须依赖局部时间窗中的视觉证据。
训练上,MedScope 采用三阶段路线——
第一阶段进行临床推理 warm-up,学习医学语义和长程视频理解;
第二阶段用 visual-CoT cold-start SFT 教会模型何时需要更多证据、如何调用工具;
第三阶段用 GA-GRPO 强化时序对齐的工具使用,通过 grounding-aware reward 和 evidence-modulated advantage,让模型更偏向检索真正支持结论的视觉片段。
在 SVU-31K、ClinVideo-Eval 等评测中,MedScope 在多粒度视频理解、细粒度时序推理和 grounded VQA 上取得开源模型中的SOTA。
论文还显示,去掉evidence reward会显著降低定位质量,例如R@0.5 从 40.1 下降到 33.2,mIoU 从 4.3 下降到 38.8,说明答案级监督不足以教会模型可靠地选择证据。
真正的范式变化:视觉从 " 输入 " 变成 " 思维过程 "
把两篇工作放在一起看,最重要的不是 Ophiuchus 处理图像、MedScope 处理视频,而是它们共同定义了一种新的医学多模态智能范式:
模型的推理过程不再只是语言 token 的展开,而是语言、工具、图像区域、视频片段和证据反馈之间的闭环交互。

Ophiuchus 和 MedScope 把这一点从方法论变成了可训练、可评测、可扩展的技术路线。
为什么这可能成为医学 AI Agent 的关键拐点
医学任务与通用视觉问答最大的不同,是每一个结论都需要证据链。
放射科医生会放大病灶边缘,病理医生会寻找细胞形态,外科医生会回看关键操作,内镜医生会追踪病灶在时间中的出现与消失。
也就是说,临床视觉推理天然就是交互式、证据驱动和可复核的。
"Think with Images/Videos" 的意义,正是让医学 AI 向这种真实临床认知方式靠近。
它不再满足于一次性预测,而是在模型内部建立 "假设 - 查证 - 修正 - 回答" 的循环。
这为临床可信 AI 提供了三类重要能力:更少幻觉、更强可解释性、更适合复杂流程。

从 Ophiuchus 到 MedScope,可以看到医学多模态大模型正在发生一次底层范式转向:
从看图、看视频,到在推理过程中持续地看;从输出答案,到主动寻找证据;从语言链条,到视觉证据参与的多模态思维链。
这也解释了为什么 "think with images/videos" 值得被单独提出。
它不是一个更花哨的工具调用框架,而是在医学 AI 里重新定义了 " 推理 " 的边界:推理不只是语言生成,而是围绕证据进行的动态视觉探索。
当模型能够在思考中主动回看影像、放大病灶、截取视频、验证证据,医学 AI 才真正从 " 会回答问题 " 走向 " 会进行临床视觉推理 "。
LeapQuest[起跃界问]是上海创智学院面向下一代医学 AI Agent、视觉推理与多模态大模型的青年交叉研究团队,聚焦 Visual Reasoning、Agentic RL、Clinical Tools,推动模型从 " 生成答案 " 走向基于证据的观察、验证与行动。
项目 GitHub:
MedScope|Think with Videos:https://github.com/SII-WenjieLisjtu/MedScope
Ophiuchus|Think with Images:https://github.com/SII-zyj/Ophiuchus
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

科技前沿进展每日见




