智猩猩 AI 整理
编辑: 宁宁
随着多模态大模型能力不断增强,RAG 已经不再只是 " 文本检索 + 文本回答 "。在真实应用中,Agent 需要同时处理文本、图片、PPT、视觉文档、网页截图、长视频甚至跨视频语料。问题也随之出现:视觉信息通常 token 成本高,但真正与问题相关的线索又很稀疏。直接把所有视觉内容塞进上下文,会造成 token 膨胀、噪声干扰和推理效率下降;如果简单压缩成文本摘要,又容易丢失图表、页面布局、关键帧等细粒度证据。
针对这一痛点,阿里通义实验室提出VimRAG,一种面向全模态检索增强推理的框架。它不再把 Agent 的历史交互简单拼接成线性上下文,而是构建动态的全模态记忆图,用图结构记录检索路径、视觉证据和推理依赖,并根据节点重要性动态分配视觉 token。实验显示,VimRAG 在文本、图片 / 视觉文档、长视频等全模态 RAG 基准上取得领先效果,在 Qwen3-VL-8B-Instruct 上整体分数从最强基线 Mem1 的 43.6 提升到 50.1。
论文标题:
VimRAG: Navigating Massive Visual Context in Retrieval-Augmented Generation via Multimodal Memory Graph
论文链接:
https://arxiv.org/abs/2602.12735v1
GitHub 仓库地址:
https://github.com/Alibaba-NLP/VRAG
01 方法
图 1 VimRAG 整体框架
传统 Agent 常采用 ReAct 式流程,不断进行 " 思考—动作—观察 ",并把每一轮交互追加进上下文。这种方式在短文本任务中问题不大,但面对长视觉文档和视频语料时,很容易出现三个问题:历史越来越长、关键证据被淹没、模型忘记自己已经检索过什么,进而产生重复搜索和无效推理。
VimRAG 包含三类核心设计。
(1)Multimodal Memory Graph
它将多轮推理过程建模为一个动态有向无环图。图中的每个节点都代表一次 Agent 的认知状态,包含父节点、子查询、文本摘要和全模态记忆。模型每进行一次检索、观察或记忆更新,都会在图中形成一个节点。这样 Agent 不仅知道 " 我看到了什么 ",还知道 " 这个信息来自哪个子问题 "" 它和之前的推理路径有什么关系 "。
在推理过程中,VimRAG 主要包含三类动作:
(i)检索动作,用于根据当前问题或子问题搜索文本、图片、视频等外部信息;
(ii)记忆动作,用于对检索到的全模态内容进行观察、筛选、压缩并写入图节点;
(iii)回答动作,当证据足够时生成最终答案。相比线性历史,这种结构能够帮助模型区分有效路径和无效探索,避免陷入重复检索。
图 2 不同记忆结构对比
(2)Graph-Modulated Visual Memory Encoding(图调制视觉记忆编码)
全模态 RAG 的关键矛盾在于视觉信息不能全部保留,也不能全部丢弃。全部保留会带来巨大的 token 成本,全部转写成文本又会损失视觉细节。VimRAG 会为每个视觉记忆项计算一个 " 能量值 ",再按照能量高低动态分配视觉 token。
这个能量值主要由三类因素决定:
(i)语义相关性,即视觉内容是否与当前问题相关;
(ii)图拓扑位置,即该节点是否支撑了后续关键推理;
(iii)时间衰减,即较早且不再重要的信息会逐渐降低权重。
更重要的是,VimRAG 还引入递归反馈机制:如果一个早期节点虽然表面上不突出,但它支撑了后续高价值推理节点,那么它的权重也会被反向增强。这样可以避免关键证据被过早遗忘。
图 3 不同跨模态记忆策略对比
(3)Graph-Guided Policy Optimization
在多步 Agent 任务中,最终答案正确不代表中间每一步都有效;最终答案错误,也不代表每一步检索都没有价值。VimRAG 利用记忆图做图剪枝:对于答对的轨迹,只强化通向答案节点的关键路径,屏蔽无关探索;对于答错的轨迹,如果其中某些节点确实检索到了有效证据,就不对这些节点施加负向惩罚。这样,训练信号就从粗粒度的 " 整条轨迹对错 ",细化为 " 每个节点是否真正有价值 "。
图 4 图引导策略优化
02 实验设置及结果分析
为了验证方法效果,研究团队在多类数据集上进行了实验,覆盖通用文本问答、图片与视觉文档理解、长视频与视频语料理解等场景。具体包括 HotpotQA、SQuAD、WebQA、SlideVQA、MMLongBench、LVBench、WikiHowQA、SyntheticQA,以及研究团队构建的 XVBench。
对比方法包括 Vanilla RAG、ReAct、UniversalRAG、VideoRAG、MemAgent 和 Mem1。这些方法分别代表直接检索增强、交互式推理、跨模态路由、视频 RAG 和记忆式 Agent 等不同技术路线。实验基于 Qwen3-VL-4B-Instruct 和 Qwen3-VL-8B-Instruct 两个模型规模进行评估。
主实验结果如图 5 显示,VimRAG 在两个模型规模上都取得最佳整体表现。在 Qwen3-VL-4B-Instruct 上,最强基线 Mem1 的整体分数为 40.6,而 VimRAG 达到 45.2;在 Qwen3-VL-8B-Instruct 上,Mem1 为 43.6,VimRAG 提升到 50.1。这说明 VimRAG 的收益并不只是依赖模型规模,而是来自其结构化记忆和视觉证据管理机制。
图 5 VimRAG 主实验结果
从结果分析看,ReAct 这类线性历史方法容易受到视觉 token 膨胀影响,交互轮数越多,越容易出现重复检索和上下文干扰。VideoRAG、UniversalRAG 等方法虽然在特定任务上有优势,但推理流程相对固定,泛化到复杂跨模态任务时表现有限。相比之下,VimRAG 显式建模检索路径和推理依赖,因此更适合长程、多跳、全模态任务。
研究团队还进行了消融实验。结果表明,图结构能够缓解状态盲区,全模态记忆能够减少视觉信息丢失,基于能量的视觉 token 分配进一步提升关键证据保留能力,而图引导策略优化则提高了训练稳定性和样本利用效率。这说明 VimRAG 的三个模块并不是单点改进,而是形成了从记忆结构、视觉压缩到训练监督的完整闭环。
图 6 消融与效率分析
03 总结
VimRAG 把全模态 RAG 的问题从 " 如何检索更多信息 ",推进到 " 如何组织、筛选并利用这些信息 "。面对大规模视觉上下文,真正有效的 Agent 不仅要能找到信息,还要知道哪些信息重要、它们来自哪条推理路径、又如何支撑最终答案。
(1)全模态记忆图,VimRAG 让推理过程从线性历史变成结构化拓扑;
(2)图调制视觉编码,它让模型按重要性分配视觉 token;
(3)图引导策略优化,它让训练信号从最终答案对错细化到节点级行为价值。
全模态 Agent 的下一阶段竞争,不只是基础模型能力的竞争,也会是记忆结构、上下文管理、检索路径规划和强化学习监督机制的竞争。VimRAG 给出的答案是:在视觉信息越来越庞大的 RAG 场景中,Agent 需要的不只是 " 看得更多 ",而是 " 记得更准、用得更对 "。
入群申请