随着视觉 - 语言模型(VLM)推理能力不断增强,一个隐蔽的问题逐渐浮现:
很多错误不是推理没做好,而是 " 看错了 "。
在复杂视觉任务中,模型往往能正确识别对象、理解问题,甚至给出完整的推理链,却因捕捉了错误的视觉证据,得出自信却错误的答案。
现有方法通常在推理阶段 " 指路 " ——例如生成视觉提示或调用外部工具,以临时对齐证据。这类策略虽有效,却面临明显局限:视觉线索形式受限、高度依赖具体任务,且推理开销大。更重要的是,它引出一个根本性问题:
如果模型始终需要外部提醒才知道 " 看哪儿 ",它是否真的理解了视觉世界?
为此,微软亚洲研究院与清华大学提出BiPS(Bi-directional Perceptual Shaping),从源头重塑模型的 " 看图方式 "。
BiPS 不在推理时临时提示关注区域,而是在训练阶段就教会模型:面对特定问题,哪些视觉细节必须关注,哪些可以忽略。通过系统性地对齐问题与视觉证据,BiPS 促使模型内化一种核心能力——带着问题去看图。因此,在推理时无需任何额外提示,模型也能自动聚焦于真正决定答案的关键区域与细节。
实验表明,这种 " 看哪儿 " 的能力具有跨任务迁移性,为构建更可靠、通用的视觉理解系统开辟了新路径。
视线错位:VLM 的 " 看 " 与 " 想 " 为何脱节?
我们常被视觉 - 语言模型(VLM)行云流水的回答迷惑,以为它真的 " 看懂 " 了图片。但事实可能是:它识别出了图中物体,却抓错了关键信息。
人类的视觉是目标驱动的:问趋势就追曲线,问数值就盯刻度,问关系就比位置。但当前 VLM 的 " 看 " 仍停留在打标签阶段,缺乏对关键证据的精准定位能力。它知道图里有什么,却不知道该看哪里。
为解决这一 " 视线错位 ",学界常采用视觉证据引导——通过框选、掩码或线索提示,为模型的 " 视线 " 装上 " 准星 "。然而,这种引导式感知存在三重局限:
其一,世界不是矩形的。图表中的折线拐点、几何题中的交叠多边形、医学影像中的弥散病灶……这些关键线索往往是不规则且弥散的,难以被标准框或掩码完整覆盖。裁大引入噪声,裁小丢失细节,模型 " 看 " 到了区域,却依然看错了证据。
其二,聚焦能力无法迁移。当前提示方法多为特定任务定制,依赖特定数据分布或标注规则。模型的感知能力被绑死在任务专属的视觉表示上,难以泛化。换一个任务,就得重教它 " 怎么看 "。
其三,感知被推迟到推理之后。多数方案将视觉聚焦视为推理链中的中间补救步骤,不仅拖慢效率,更让错误在后续推理中滚雪球式放大。
核心挑战由此浮现:如何让模型学会 " 带着问题去看图 "?
从 " 推理时补救 " 到 " 训练时内化 ":BiPS 的核心转向

能否不再依赖推理阶段的视觉外挂,而是在训练阶段,就让模型真正学会识别什么是 " 正确的视觉证据 "?
这正是BiPS(Bi-directional Perceptual Shaping)的核心革命。
它不做边界框、不打掩码、不调工具,而是:
把推理阶段依赖的视觉提示,提前转化为指导模型 " 该往哪儿看 " 的训练信号。让模型学会本能聚焦关键证据。
一拉一推:让模型既 " 看全 ",又 " 看准 "
BiPS 的核心在于一套方向相反、粒度互补的双重感知塑形机制:
先把模型的视线 " 拉 " 回到所有相关证据,再 " 推 " 它看向真正关键的细节。

真实问答常依赖分散却环环相扣的视觉证据链——如折线走势、图例颜色、坐标刻度与子图标题的组合。
为此,BiPS 构建Evidence-Preserving View(证据保留视图):系统性剔除干扰,仅保留回答必需的视觉元素,宁可粒度粗,也不遗漏关键。
模型需基于这种 " 信息更少但结构完整 " 的视图,输出与原始图像一致的答案。
这一过程将模型从噪声与偏见中拉回,使其回答锚定于完整的证据链。
" 推 ":看对关键细节
" 看全 " 只是起点。若模型仅模糊定位相关区域,仍可能依赖语言先验或统计偏见作答。
BiPS 引入Evidence-Ablated View(证据消融视图):精准移除决定答案的关键细节(如某条折线)。这类改动视觉上微小,却足以颠覆答案。
此时训练目标反转:一旦关键证据消失,模型必须拒绝原答案。
这是一种反事实约束——任何绕过关键视觉证据的 " 替代推理 " 都应失效。
协同塑形感知
" 拉 " 与 " 推 " 构成递进流程:
" 拉 " 确保回答基于完整、必要的视觉证据;
" 推 " 迫使模型识别不可替代的细粒度线索。
二者协同,推动模型从表面关联走向因果一致的证据依赖,学会像人类一样 " 带着问题看世界 "。
图表是最好的老师:用精确证据,教会模型 " 看哪里 "
当 BiPS 把 " 看准 " 作为训练目标后,一个现实问题随之而来:
那些精细又紧扣问题的视觉证据,到底从哪儿来?
图表是极佳的训练起点:它们以多子图、细折线、小标记与精确刻度等,构成了高密度、高信息量的视觉场景。这些微小元素往往是解题的关键线索,提供了丰富且细粒度的感知材料。
更重要的是,图表中的视觉证据是可控的。每个元素都可被程序化地添加、移除或遮蔽,并能直接验证其对答案的影响,从而能够以程序化的方式,准确构建 " 证据保留 " 与 " 证据消融 " 的对照视图。
因此,在 BiPS 的训练体系中,图表是一个高复杂度、高度可控的实验场:既足够复杂以提供真实的细粒度证据,又足够可控以精准操纵这些证据。模型在此学习的,并非解读图表,而是在复杂视觉场景中,学会将注意力聚焦于与问题真正相关的局部线索。
13K 训练样本,8 个基准:一次 " 小数据 " 的能力迁移
BiPS 展示出了一种高效而稳定的训练范式。仅用13K 条图表样本对基础模型进行微调,无需人工标注,也未针对不同任务定制专门工具或模板。训练目标单一明确:学会 " 问题指哪,就看哪 " 的视觉逻辑。

真实图表理解(如 CharXiv)
图像驱动的数理逻辑推理(如 MathVision)
通用视觉问答(如 MMStar)
以 Qwen2.5-VL-7B 为基础模型,BiPS 带来了平均准确率 +7.3% 的提升,这一提升并非集中在某一特定领域,而是跨越数据分布、跨越任务类型的全面进步。
即便在推理能力已高度强化的 Qwen3-VL-8B-Thinking 上,这一效果依然成立:
CharXiv:53.0 → 58.1;MathVision:62.7 → 63.9;MMStar:75.3 → 76.3
这些结果表明,BiPS 学到的不是 " 图表特有的解题技巧 ",而是一种可迁移的 " 看对地方 " 的能力。
学会 " 看对地方 ":迈向通用智能的关键一步
真正的视觉智能不仅是 " 看到 ",更是在复杂信息中,聚焦于与问题相关的关键证据。
BiPS 实现的并非简单的技巧优化,而是一种根本性的能力转变:使模型的视觉注意力从被动、均匀的扫视,转变为主动、问题驱动的精准聚焦。
这无疑是通向通用视觉智能的关键一步,其核心在于:让模型的眼睛,真正看向问题的关键。
论文链接:
https://arxiv.org/abs/2512.22120
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

科技前沿进展每日见