APP下载

关于ZAKER

Skills 合作

呼呼历史论 10小时前

阿里通义推出全新 RAG 范式 ! 利用记忆图开启视觉智能新纪元

智猩猩 AI 整理

编辑：宁宁

随着多模态大模型能力不断增强，RAG 已经不再只是 " 文本检索 + 文本回答 "。在真实应用中，Agent 需要同时处理文本、图片、PPT、视觉文档、网页截图、长视频甚至跨视频语料。问题也随之出现：视觉信息通常 token 成本高，但真正与问题相关的线索又很稀疏。直接把所有视觉内容塞进上下文，会造成 token 膨胀、噪声干扰和推理效率下降；如果简单压缩成文本摘要，又容易丢失图表、页面布局、关键帧等细粒度证据。

针对这一痛点，阿里通义实验室提出VimRAG，一种面向全模态检索增强推理的框架。它不再把 Agent 的历史交互简单拼接成线性上下文，而是构建动态的全模态记忆图，用图结构记录检索路径、视觉证据和推理依赖，并根据节点重要性动态分配视觉 token。实验显示，VimRAG 在文本、图片 / 视觉文档、长视频等全模态 RAG 基准上取得领先效果，在 Qwen3-VL-8B-Instruct 上整体分数从最强基线 Mem1 的 43.6 提升到 50.1。

论文标题：

VimRAG: Navigating Massive Visual Context in Retrieval-Augmented Generation via Multimodal Memory Graph

论文链接：

https://arxiv.org/abs/2602.12735v1

GitHub 仓库地址：

https://github.com/Alibaba-NLP/VRAG

01 方法

图 1 VimRAG 整体框架

传统 Agent 常采用 ReAct 式流程，不断进行 " 思考—动作—观察 "，并把每一轮交互追加进上下文。这种方式在短文本任务中问题不大，但面对长视觉文档和视频语料时，很容易出现三个问题：历史越来越长、关键证据被淹没、模型忘记自己已经检索过什么，进而产生重复搜索和无效推理。

VimRAG 包含三类核心设计。

（1）Multimodal Memory Graph

它将多轮推理过程建模为一个动态有向无环图。图中的每个节点都代表一次 Agent 的认知状态，包含父节点、子查询、文本摘要和全模态记忆。模型每进行一次检索、观察或记忆更新，都会在图中形成一个节点。这样 Agent 不仅知道 " 我看到了什么 "，还知道 " 这个信息来自哪个子问题 "" 它和之前的推理路径有什么关系 "。

在推理过程中，VimRAG 主要包含三类动作：

（i）检索动作，用于根据当前问题或子问题搜索文本、图片、视频等外部信息；

（ii）记忆动作，用于对检索到的全模态内容进行观察、筛选、压缩并写入图节点；

（iii）回答动作，当证据足够时生成最终答案。相比线性历史，这种结构能够帮助模型区分有效路径和无效探索，避免陷入重复检索。

图 2 不同记忆结构对比

（2）Graph-Modulated Visual Memory Encoding（图调制视觉记忆编码）

全模态 RAG 的关键矛盾在于视觉信息不能全部保留，也不能全部丢弃。全部保留会带来巨大的 token 成本，全部转写成文本又会损失视觉细节。VimRAG 会为每个视觉记忆项计算一个 " 能量值 "，再按照能量高低动态分配视觉 token。

这个能量值主要由三类因素决定：

（i）语义相关性，即视觉内容是否与当前问题相关；

（ii）图拓扑位置，即该节点是否支撑了后续关键推理；

（iii）时间衰减，即较早且不再重要的信息会逐渐降低权重。

更重要的是，VimRAG 还引入递归反馈机制：如果一个早期节点虽然表面上不突出，但它支撑了后续高价值推理节点，那么它的权重也会被反向增强。这样可以避免关键证据被过早遗忘。

图 3 不同跨模态记忆策略对比

（3）Graph-Guided Policy Optimization

在多步 Agent 任务中，最终答案正确不代表中间每一步都有效；最终答案错误，也不代表每一步检索都没有价值。VimRAG 利用记忆图做图剪枝：对于答对的轨迹，只强化通向答案节点的关键路径，屏蔽无关探索；对于答错的轨迹，如果其中某些节点确实检索到了有效证据，就不对这些节点施加负向惩罚。这样，训练信号就从粗粒度的 " 整条轨迹对错 "，细化为 " 每个节点是否真正有价值 "。

图 4 图引导策略优化

02 实验设置及结果分析

为了验证方法效果，研究团队在多类数据集上进行了实验，覆盖通用文本问答、图片与视觉文档理解、长视频与视频语料理解等场景。具体包括 HotpotQA、SQuAD、WebQA、SlideVQA、MMLongBench、LVBench、WikiHowQA、SyntheticQA，以及研究团队构建的 XVBench。

对比方法包括 Vanilla RAG、ReAct、UniversalRAG、VideoRAG、MemAgent 和 Mem1。这些方法分别代表直接检索增强、交互式推理、跨模态路由、视频 RAG 和记忆式 Agent 等不同技术路线。实验基于 Qwen3-VL-4B-Instruct 和 Qwen3-VL-8B-Instruct 两个模型规模进行评估。

主实验结果如图 5 显示，VimRAG 在两个模型规模上都取得最佳整体表现。在 Qwen3-VL-4B-Instruct 上，最强基线 Mem1 的整体分数为 40.6，而 VimRAG 达到 45.2；在 Qwen3-VL-8B-Instruct 上，Mem1 为 43.6，VimRAG 提升到 50.1。这说明 VimRAG 的收益并不只是依赖模型规模，而是来自其结构化记忆和视觉证据管理机制。

图 5 VimRAG 主实验结果

从结果分析看，ReAct 这类线性历史方法容易受到视觉 token 膨胀影响，交互轮数越多，越容易出现重复检索和上下文干扰。VideoRAG、UniversalRAG 等方法虽然在特定任务上有优势，但推理流程相对固定，泛化到复杂跨模态任务时表现有限。相比之下，VimRAG 显式建模检索路径和推理依赖，因此更适合长程、多跳、全模态任务。

研究团队还进行了消融实验。结果表明，图结构能够缓解状态盲区，全模态记忆能够减少视觉信息丢失，基于能量的视觉 token 分配进一步提升关键证据保留能力，而图引导策略优化则提高了训练稳定性和样本利用效率。这说明 VimRAG 的三个模块并不是单点改进，而是形成了从记忆结构、视觉压缩到训练监督的完整闭环。

图 6 消融与效率分析

03 总结

VimRAG 把全模态 RAG 的问题从 " 如何检索更多信息 "，推进到 " 如何组织、筛选并利用这些信息 "。面对大规模视觉上下文，真正有效的 Agent 不仅要能找到信息，还要知道哪些信息重要、它们来自哪条推理路径、又如何支撑最终答案。

（1）全模态记忆图，VimRAG 让推理过程从线性历史变成结构化拓扑；

（2）图调制视觉编码，它让模型按重要性分配视觉 token；

（3）图引导策略优化，它让训练信号从最终答案对错细化到节点级行为价值。

全模态 Agent 的下一阶段竞争，不只是基础模型能力的竞争，也会是记忆结构、上下文管理、检索路径规划和强化学习监督机制的竞争。VimRAG 给出的答案是：在视觉信息越来越庞大的 RAG 场景中，Agent 需要的不只是 " 看得更多 "，而是 " 记得更准、用得更对 "。

入群申请

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

企业资讯

查看更多内容

Blockchain News

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

阿里通义推出全新 RAG 范式 ! 利用记忆图开启视觉智能新纪元

宙世代

一起剪

相关阅读

全长59.9公里！亚洲最长地铁环线一期即将通车

从小“长”到大，揭秘smart的「反叛」与「坚守」

云南18岁女孩被表姐卖到山东，10年里从未想过逃跑，婆婆笑称赶都赶不走，女孩：我就是认命

2026年五一假期高速公路免费通行安排及出行预测

《方圆八百米》看完结局才懂，“无期”才是对高松格：最狠的刑罚

36岁程序员每天盯屏超12小时：误把青光眼当视疲劳 视野缩成管状

大会纽约开幕，格罗西警告“最可怕的噩梦”

“十五五”时期，广东要在这些“新质”领域发力！

公司拒开离职证明员工月薪2.9万offer落空 法院判赔17.4万

巨富长里的宝藏，这条有故事的马路复活，成了年轻人潮流乐园

3米长眼镜王蛇爬向民房 两幼童浑然不知！消防出手擒获放生

“探店”网红白冰：我深刻认识到了自己的错误，愿意接受处理处罚，全力配合税务机关完成整改

泳池里投火锅底料等，成都警方：8人被拘！

张雪：我已经过了“飘”的年龄 只要没被打趴下就会重新再来

俞敏洪又道歉了，东方甄选留不住初代大主播，铁了心要做“线上山姆”

最新评论

企业资讯

热门推荐

企业资讯

36岁程序员每天盯屏超12小时：误把青光眼当视疲劳视野缩成管状

公司拒开离职证明员工月薪2.9万offer落空法院判赔17.4万

3米长眼镜王蛇爬向民房两幼童浑然不知！消防出手擒获放生

张雪：我已经过了“飘”的年龄只要没被打趴下就会重新再来