近年来,大语言模型(LLMs)以及多模态大模型(MLLMs)在多种场景理解和复杂推理任务中取得突破性进展。
然而,一个关键问题仍然值得追问:多模态大模型(MLLMs),真的能 " 看懂图 " 了吗?
特别是在面对结构复杂、细节密集的图像时,它们是否具备细粒度视觉理解与空间推理能力,比如挑战一下高清地铁图这种。
结果发现,当前主流开源的多模态模型在 ReasonMap 上面临明显性能瓶颈,尤其在跨线路路径规划上常出现视觉混淆或站点遗漏。
而经强化学习后训练的闭源推理模型(如 GPT-o3)在多个维度上显著优于现有开源模型,但与人类水平相比仍存在明显差距。
在面对不同国家地区的地铁图中,四个代表性 MLLM(Qwen2.5-VL-72B-I(蓝色)、 InternVL3-78B(黄色)、 OpenAI o3(绿色)和 Doubao-415(红色) )的准确率如下图所示。左图为短问题,右图为长问题。
每个城市都标有相应的地铁图难度。测试集样本分布如下(奥克兰 32 个样本,洛杉矶 34 个样本,迈阿密 7 个样本,里斯本 35 个样本,日内瓦 18 个样本,北京 40 个样本,杭州 39 个样本,布达佩斯 17 个样本,新加坡 39 个样本,罗马 40 个样本,多伦多 11 个样本)。
评测基准 ReasonMap
与传统视觉问答(VQA)不同,ReasonMap 更强调图像中的空间关系和路线推理,具备以下几个特点:
高分辨率挑战:数据集中每张地图图像平均分辨率高达 5839 × 5449,远高于现有视觉推理任务,对模型的图像编码能力提出更高要求。
难度感知设计:我们为图像设置了难度标签,并保证问答对在不同难度层级中的均衡分布,帮助更全面地评估模型能力。
多维度评估体系:不仅考察模型回答的准确性,还对模型路线的质量包含路径合理性和换乘策略等角度进行细粒度评估。
贴近真实使用场景:任务直接基于图像推理,不依赖结构化中间件,更接近人类使用地图时的思维方式。
为了构建这个大规模、高质量的评测数据集,团队设计了一套高效的半自动化标注流程,以极低的人力成本,从国内外多个城市的地铁图中自动生成推理任务和问答对。
具体优势包括,它可以支持题目难度调控,团队为不同问题设计了难度等级,便于模型评估和对比分析;以及多样化问题模板,覆盖单线直达、多线换乘、路径最短、站点经过等多种典型场景;此外,它还具有高效扩展性,标注与验证流程可快速适配新城市,实现低成本规模扩展。
ReasonMap 的核心目标是评估多模态大模型在细粒度视觉推理任务中的真实能力,尤其关注近年来兴起的基于强化学习后训练(Reinforcement Learning Fine-tuning)的长思考模型。
团队在 15 个领先的多模态大模型上进行了系统测试,涵盖了多个开源与闭源体系,包括:
强推理能力模型,如 GPT-o3、Gemini 2.5、Doubao 1.5 Pro、QvQ-72B、Skywork-R1V 等;
通用多模态模型,如 GPT-4o、Qwen-VL2.5、InternVL 3 等。
通过将高分辨率图像与空间推理任务结合,团队对这些模型的路径规划正确性、合理性和视觉理解粒度进行了深入对比分析。同时,团队进一步将视觉输入 mask 掉,分析纯文本输入下的模型表现。
论文链接:https://arxiv.org/abs/2505.18675
项目主页:https://fscdc.github.io/Reason-Map/
代码:https://github.com/fscdc/ReasonMap
数据集:https://huggingface.co/datasets/FSCCS/ReasonMap
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见