为什么传统RAG在多模态场景下”力不从心”
传统Agent常采用ReAct式流程,不断进行”思考—动作—观察”,并把每一轮交互追加进上下文。这种方式在短文本任务中问题不大,但面对长视觉文档和视频语料时,很容易出现三个问题:
历史越来越长:随着交互轮数增加,上下文线性增长,模型需要处理的Token数量爆炸式增加。
关键证据被淹没:真正重要的视觉证据可能被淹没在大量无关信息中,模型难以准确定位。
重复检索陷阱:模型忘记自己已经检索过什么,进而产生重复搜索和无效推理,效率大打折扣。
VimRAG的核心创新,就是用结构化的记忆图替代线性的历史堆叠,从根本上解决这三个问题。

VimRAG的三类核心设计
设计一:Multimodal Memory Graph(多模态记忆图)
VimRAG将多轮推理过程建模为一个动态有向无环图(DAG)。图中的每个节点代表一次Agent的认知状态,包含父节点、子查询、文本摘要和全模态记忆。
模型每进行一次检索、观察或记忆更新,都会在图中形成一个节点。这样Agent不仅知道”我看到了什么”,还知道”这个信息来自哪个子问题””它和之前的推理路径有什么关系”。
在推理过程中,VimRAG主要包含三类动作:
- 检索动作:根据当前问题或子问题搜索文本、图片、视频等外部信息
- 记忆动作:对检索到的全模态内容进行观察、筛选、压缩并写入图节点
- 回答动作:当证据足够时生成最终答案
相比线性历史,这种结构能够帮助模型区分有效路径和无效探索,避免陷入重复检索。
设计二:Graph-Modulated Visual Memory Encoding(图调制视觉记忆编码)
全模态RAG的关键矛盾在于:视觉信息不能全部保留,也不能全部丢弃。
全部保留会带来巨大的Token成本;全部转写成文本又会损失视觉细节。
VimRAG的解决方案是:为每个视觉记忆项计算一个”能量值“,再按照能量高低动态分配视觉Token。
这个能量值主要由三类因素决定:
- 语义相关性:视觉内容是否与当前问题相关
- 图拓扑位置:该节点是否支撑了后续关键推理
- 时间衰减:较早且不再重要的信息会逐渐降低权重
更重要的是,VimRAG还引入递归反馈机制:如果一个早期节点虽然表面上不突出,但它支撑了后续高价值推理节点,那么它的权重也会被反向增强。这样可以避免关键证据被过早遗忘。
设计三:Graph-Guided Policy Optimization(图引导策略优化)
在多步Agent任务中,有一个经典难题:最终答案正确不代表中间每一步都有效;最终答案错误,也不代表每一步检索都没有价值。
传统方法的训练信号是粗粒度的”整条轨迹对错”,无法对中间过程进行精细化指导。
VimRAG利用记忆图做图剪枝,实现细粒度的策略优化:
- 对于答对的轨迹,只强化通向答案节点的关键路径,屏蔽无关探索
- 对于答错的轨迹,如果其中某些节点确实检索到了有效证据,就不对这些节点施加负向惩罚
这样,训练信号从”整条轨迹对错”细化为”每个节点是否真正有价值”。
实验结果:全面超越现有方法
研究团队在多类数据集上进行了实验,覆盖通用文本问答、图片与视觉文档理解、长视频与视频语料理解等场景。
对比方法包括Vanilla RAG、ReAct、UniversalRAG、VideoRAG、MemAgent和Mem1。这些方法分别代表直接检索增强、交互式推理、跨模态路由、视频RAG和记忆式Agent等技术路线。
实验基于Qwen3-VL-4B-Instruct和Qwen3-VL-8B-Instruct两个模型规模进行评估。
主实验结果显示,VimRAG在两个模型规模上都取得最佳整体表现:
- 在Qwen3-VL-4B-Instruct上,最强基线Mem1的整体分数为40.6,而VimRAG达到45.2
- 在Qwen3-VL-8B-Instruct上,Mem1为43.6,VimRAG提升到50.1
这说明VimRAG的收益并不只是依赖模型规模,而是来自其结构化记忆和视觉证据管理机制。
消融实验进一步验证了各模块的必要性:
- 图结构能够缓解状态盲区
- 全模态记忆能够减少视觉信息丢失
- 基于能量的视觉Token分配进一步提升关键证据保留能力
- 图引导策略优化提高了训练稳定性和样本利用效率
这说明VimRAG的三个模块并不是单点改进,而是形成了从记忆结构、视觉压缩到训练监督的完整闭环。
与MemAgent的关键差异
提到多模态RAG,不得不提字节跳动的MemAgent。两者都关注”记忆”问题,但设计理念有本质区别:
| 维度 | MemAgent | VimRAG |
|---|---|---|
| 记忆结构 | 线性堆叠 | 动态有向无环图 |
| 视觉处理 | 统一压缩 | 基于能量值的动态分配 |
| 策略优化 | 基于结果奖励 | 图引导的细粒度优化 |
| 多模态支持 | 文本为主 | 全模态(文本+图片+视频) |
从实验结果看,VimRAG在多模态任务上的优势明显,尤其是涉及视觉证据保留和长程推理的场景。
适用场景与局限
VimRAG特别适合以下场景:
- 多模态文档理解:PPT、PDF、视觉报告等需要同时理解文字和图表的任务
- 视频内容分析:需要从长视频中提取关键帧和信息片段
- 跨模态推理:涉及图片、文本、视频等多种信息源的复杂问答
VimRAG的局限包括:
- 图结构的构建和维护需要额外的计算开销
- 对于简单问答任务,可能过于复杂
- 目前主要在学术基准上验证,企业场景的效果有待进一步验证
开源与生态
VimRAG的论文和代码已开源:
- 论文:VimRAG: Navigating Massive Visual Context in Retrieval-Augmented Generation via Multimodal Memory Graph
- GitHub:https://github.com/Alibaba-NLP/VRAG
配合通义实验室此前开源的Qwen-VL系列多模态模型,VimRAG正在成为多模态RAG领域的重要基础设施。
结语
当大模型的上下文窗口突破百万级别,当多模态能力成为标配,如何高效管理海量视觉信息成为一个关键挑战。
VimRAG用结构化的记忆图替代线性历史,用能量驱动的视觉Token分配平衡信息保留与计算成本,用图引导的策略优化实现细粒度的能力提升——这或许代表了RAG从”文本检索”向”全模态推理”演进的一个重要方向。
对于开发者而言,VimRAG开源的意义不仅在于一个具体框架,更在于它提供了一种新的思路:当线性增长遇到瓶颈时,或许可以尝试用结构化的方式来管理和利用复杂信息。
参考资料:阿里通义实验室、arXiv

发表回复