多模态文档智能问答：从RAG到MARA框架的架构演进与实践

2026/6/22 3:36:00

1. 项目缘起：当文档问答遇上“盲人摸象”

最近在做一个内部知识库的升级项目，客户扔过来一堆五花八门的文档：有PDF格式的年度财报（里面全是图表和数字表格），有产品发布会的PPT截图，还有工程师随手拍的设备故障现场照片，甚至有几段会议录音转成的文字稿。老板的要求很明确：做一个智能问答系统，让员工能像问同事一样，用自然语言提问，系统得从这堆“大杂烩”里找到答案。

一开始，我们团队信心满满，直接上了当时最火的“检索增强生成”（RAG）方案。思路很经典：把文档切块、向量化、存进向量数据库，用户提问时检索最相关的几个文本块，塞给大模型生成答案。结果呢？上线第一天就翻车了。

用户问：“去年Q3华东区的销售额是多少？请结合趋势图说明。” 系统检索回来的，全是财报里提到“销售额”的文本段落，但死活找不到对应的柱状图。生成的答案只能干巴巴地复述数字，完全没法“结合趋势图说明”。另一个用户上传了一张设备面板的故障灯照片，问“这个红灯代表什么故障？处理步骤是什么？” 系统直接懵了，因为它只“认识”文字，对图片里的指示灯符号和仪表读数视而不见。

那一刻，我深刻体会到什么叫“盲人摸象”。传统的RAG框架，本质上是个“文本单模态”系统。它把世界简化成了文字，对于PDF里的图表、图片中的视觉信息、甚至排版格式所隐含的结构（比如标题、表格），它要么视而不见，要么只能通过OCR勉强转成文字，丢失了大量关键语义。在多模态文档成为主流的今天，这种能力的缺失是致命的。图表里的一个箭头、设计图上的一个标注、视频中的关键帧，都可能承载着问题的核心答案。

这就是我们探索并设计MARA（面向多模态文档问答的自适应检索增强框架）的初衷。它不是一个凭空想象的概念，而是为了解决真实、棘手的生产问题：如何让机器像人一样，真正“看懂”一份包含文字、图片、表格、公式的复杂文档，并从中精准、连贯地回答出问题？

2. MARA框架总览：从“单线程”检索到“多模态”协同作战

在深入技术细节之前，我们先从顶层看看MARA是如何重新组织这场“信息狩猎”的。传统的RAG流程，可以比作一个只懂一种语言的侦探，他只能翻阅文字档案（文本嵌入），然后根据文字线索（问题向量）去匹配，最后口述报告（生成答案）。

而MARA，更像一个配备了多种专业工具和拥有协同指挥能力的特勤小组。它的核心革新在于两点：多模态感知与自适应决策。整个框架的运作，可以分解为四个核心阶段，我将其概括为“感知-理解-决策-执行”的闭环。

2.1 多模态解析与表征层：给机器装上“眼睛”和“结构感知器”

这是所有工作的基础。一份多模态文档进来，MARA不会像传统方法那样，粗暴地把它全部OCR成一段冗长的、失去结构的文本。相反，它像一位专业的文档分析师，进行精细的解构：

模态解耦与特征提取：
- 文本：不仅仅是提取字符，还要识别段落、标题、列表等逻辑结构。我们使用像LayoutLMv3或UDOP这类经过文档布局预训练的模型，它们能同时理解文本内容和其在页面上的二维位置关系。
- 图像/图表：对于文档中的每一个图像区域（Figure），我们使用视觉编码器（如CLIP的ViT，或专门针对文档图表优化的模型如ChartOCR）提取密集的视觉特征。关键点在于，这些特征不是孤立的。我们会将图像所在的页面位置、以及其周围的标题、引用文本（如“如图1所示”）作为上下文，一起编码，形成“视觉-文本”关联特征。
- 表格：表格是半结构化数据的典型。我们会使用专门的表格识别模型（如Table Transformer）检测表格区域，然后将其结构化为HTML或Markdown格式，同时保留表头、单元格合并等语义信息。对于复杂的财务表格，我们甚至会简单推断行列之间的计算关系。
- 公式：使用LaTeX-OCR工具将公式图像转换为LaTeX代码，这是一种既精确又富含数学语义的表示形式。
统一语义空间映射：这是技术上的一个关键挑战。文本特征、图像特征、表格结构化数据，它们原本生活在不同的“度量空间”里，直接比较相似度就像比较“苹果的甜度”和“橙子的颜色”。MARA通过一个多模态对齐模块来解决。我们利用海量的图文对数据（如COCO、文档数据集）预训练一个投影层，将不同模态的特征，全部映射到一个共享的高维语义空间中。在这个空间里，“销售额增长”的文本描述、展示增长曲线的图表特征、以及包含增长数字的表格单元格，它们的向量表示会非常接近。这就为后续的跨模态检索打下了基础。

实操心得：这一步最吃资源也最容易出坑。我们最初尝试用一个大模型（如GPT-4V）来处理所有模态，虽然简单，但成本极高且延迟无法接受。后来转向“专家模型集成”路线：用轻量、专精的模型处理各自擅长的模态（如PaddleOCR处理文字，DINOv2提取通用视觉特征），再通过一个相对简单的对齐网络进行融合。这样在精度和效率间取得了更好的平衡。一个重要的技巧是，在提取特征时，一定要把“位置信息”（Bounding Box）和“模态类型”作为元数据（Metadata）保留下来，这在后续的重排和生成阶段至关重要。

2.2 自适应检索策略引擎：从“一把梭”到“智能调度”

传统RAG是“一次性检索”，而MARA的检索是多阶段、自适应的。我们把这个引擎称为“策略中心”，它的核心是一个轻量级的决策模型（可以是一个微调的小型LLM，或一个基于规则+嵌入的分类器），它根据用户问题的复杂度和意图，动态选择检索路径。

路径一：简单事实型问答。例如“文档的作者是谁？”。决策引擎会判断这是一个纯文本匹配问题，直接触发稠密向量检索（Dense Retrieval），在统一的语义空间里，用问题向量查找最相关的文本片段。速度快，精度高。
路径二：涉及视觉内容的问题。例如“请描述图5中的流程”。引擎会识别出“图5”这个关键实体，触发混合检索（Hybrid Retrieval）。首先，通过稀疏检索（如BM25）快速定位到文档中提及“图5”的文本上下文；然后，利用多模态编码器，计算问题与文档中所有图像的相似度，找到最匹配的“图5”视觉特征；最后，将文本上下文和视觉特征同时送入下一阶段。
路径三：复杂推理或多跳问答。例如“对比产品A和产品B在Q3和Q4的销量，并用图表支持你的结论”。这是一个需要串联多个信息点的复杂问题。引擎会启用Agentic RAG（智能体式RAG）流程。它可能将问题分解为子问题：1）找到产品A的Q3、Q4销量（可能来自表格）；2）找到产品B的Q3、Q4销量；3）找到包含销量对比的图表。然后，它可能会进行多轮迭代检索，用上一轮检索到的信息（如产品A的名字）来优化下一轮的查询（如“产品A销量图表”），像侦探一样层层推进。

这个自适应引擎的“智能”来自于对大量问答对的训练，让它学会分类问题类型。在实践中，我们定义了几个关键分类特征：问题中是否包含视觉实体引用（如图、表）、是否包含比较性词汇（对比、差异）、是否包含数值计算（总和、平均值）等。

2.3 多模态上下文融合与重排序：拼图游戏的高手

检索阶段可能会返回来自不同模态、不同文档位置的多个信息“碎片”：几段文本、一张图表、一个表格单元格。直接把这些碎片扔给大模型，它很可能会产生混淆或幻觉。因此，一个强大的融合与重排序（Re-ranking）模块必不可少。

跨模态相关性重排：我们引入一个交叉编码器（Cross-Encoder）。与检索时使用的双编码器（Bi-Encoder）不同，交叉编码器会将问题和每一个候选信息碎片（连同其模态类型和上下文）进行深度交互计算，得到一个更精细的相关性分数。例如，对于问题“解释图3中的峰值原因”，一段描述“图3显示了用户活跃度的突然上升”的文本，和另一段描述“图4的硬件故障”的文本，前者在交叉编码器看来相关性会高得多，即使它们的初始向量相似度可能接近。
上下文富化与去冗余：对于重排后的顶级结果，MARA会进行“上下文富化”。例如，对于一张检索到的图表，我们会自动将其“标题”、“图注”以及文档中引用它的前后文段落，作为附加文本信息绑定在一起。对于表格，我们会将其所在章节的标题作为上下文。这样，每个信息碎片都变成了一个包含自身内容、模态、位置和周边文本的“富信息单元”。
结构组织：最后，按照这些信息单元在原始文档中的逻辑顺序（如页码、位置）或语义重要性进行组织，形成一个结构化的、多模态的上下文列表，准备喂给生成器。

踩坑实录：我们曾经忽略重排序，导致生成的答案经常“张冠李戴”，把图1的解释安到图2上。引入基于DeBERTa微调的交叉编码器后，效果立竿见影。另一个关键点是控制上下文长度。多模态特征（尤其是经过编码的视觉特征）可能非常长，会迅速耗尽大模型的上下文窗口。我们的解决方案是：对于视觉内容，在融合阶段仅保留其最关键的、经过对齐的语义向量（而非原始像素特征），或者生成一段详细的文本描述（Caption），用文本来代表视觉信息，从而大幅节省Token。

2.4 多模态感知的答案生成：真正的“图文并茂”回答

这是临门一脚。我们最终选用的生成模型，必须是支持多模态输入的，例如GPT-4V、Qwen-VL-Plus或DeepSeek-V2。我们将前一步准备好的、结构化的多模态上下文（格式化文本 + 图像特征/或图像描述 + 表格数据）以及用户问题，一起构建成提示（Prompt）。

提示工程在这里至关重要。一个有效的Prompt模板通常包含：

角色设定：你是一个专业的文档分析助手。
指令：请严格基于提供的上下文回答问题。上下文包含文本、图表描述和表格数据。
上下文格式化：明确分隔不同来源和模态的信息，例如使用[Text from Page 5]，[Description of Figure 2: ...]，[Data from Table 3: ...]等标签。
约束：如果信息不足，请明确说明；禁止混淆不同图表或表格的信息。
输出格式：要求答案清晰，如果引用图表，请注明“如图X所示”。

这样，大模型在生成时，就能有意识地去“引用”视觉信息，说出“从图2的曲线可以看出...”或“如表1数据所示...”这样符合人类习惯的、真正融合了多模态信息的答案。

3. 核心挑战与实战调优：填平理想与现实的鸿沟

设计框架是一回事，让它稳定高效地跑起来是另一回事。在MARA的落地过程中，我们遇到了几个绕不开的硬骨头。

3.1 多模态对齐的“语义鸿沟”问题

理论上，共享语义空间很美。但实际上，让一段描述“市场增长”的文字和一个“上扬的折线图”在向量空间里紧挨着，非常困难。预训练的对齐模型在通用数据集上表现尚可，但一到我们垂直领域的专业文档（如工程图纸、医疗报告），效果就急剧下降。

我们的解决方案是：领域自适应微调。

构造领域特定的对齐数据：我们从内部文档中，人工标注或利用大模型（GPT-4V）半自动地生成大量的“（文本片段，图像区域）”配对。例如，从一份医疗报告中，截取“左肺下叶可见结节状高密度影”的文本，和对应的CT影像切片区域，作为一个正样本。
对比学习微调：使用类似CLIP的对比学习框架，但 backbone 换成我们已有的专家编码器。目标函数是拉近配对的多模态特征距离，推远不配对的特征距离。这个过程计算量不小，但能显著提升垂直领域的检索精度。
引入知识图谱作为桥梁：对于一些高度专业的概念，我们在对齐时引入领域知识图谱。例如，将“齿轮”的文本、齿轮的图片、以及知识图谱中“齿轮”实体的嵌入，三者进行联合对齐，让语义空间吸收结构化知识，从而更鲁棒。

3.2 自适应检索的策略学习与冷启动

自适应检索引擎需要一个决策模型，但这个模型一开始没有数据，怎么训练？这就是冷启动问题。

我们的策略是“规则筑基，数据迭代”：

初期：我们基于经验，编写了一套清晰的规则库。例如，如果问题中包含“图X”、“表Y”、“照片”等关键词，则走混合检索路径；如果包含“计算”、“对比”、“首先...然后...”等复杂逻辑词，则走Agentic路径。这套规则能解决80%的常见情况，让系统先跑起来。
数据积累：系统上线后，所有用户的问题、被触发的检索路径、以及最终人工评估的答案质量（或用户反馈），都被记录下来，形成一个“策略-效果”日志。
迭代优化：我们用这些日志数据，训练一个分类模型（如XGBoost或轻量级BERT），来学习更精细的问题分类。例如，模型可能学到，即使问题里没有“图”字，但出现了“颜色”、“形状”、“布局”等词，也应倾向于触发视觉检索。这样，系统就从基于规则的“自动化”，进化到了基于学习的“智能化”。

3.3 效率与成本的权衡：让“重武器”用在刀刃上

多模态模型（尤其是大参数视觉语言模型）的推理成本非常高。如果每个问题、每张图片都调用GPT-4V，成本将无法承受。

我们的架构做了分层处理：

轻量级路由层：使用快速的小模型（如Sentence-BERT + 简单分类器）完成问题分类和初步检索，过滤掉大量简单问题。
重型分析层：只有对于被路由判定为“复杂”、“需深度视觉理解”的问题，才会调用昂贵的多模态大模型进行最终的上下文融合与答案生成。对于简单事实问题，仅用纯文本模型（如ChatGLM3、Qwen2.5）生成即可。
缓存策略：对常见的文档和问题，将其多模态上下文表示和最终答案进行缓存。当类似问题再次出现时，直接返回缓存结果，极大降低计算开销和延迟。

4. 效果评估与迭代方向：不只是准确率

评估一个多模态问答系统，不能只看传统的文本QA指标（如EM， F1）。我们建立了一个更全面的评估体系：

多模态引用准确率：模型生成的答案中，对图、表的引用是否正确？是否出现了“如图8所示”（但文档只有7张图）这种低级错误？这部分需要人工评估。
信息融合度：答案是否有机融合了来自文本和视觉的信息？还是简单罗列？例如，对于“根据图表和下文，分析原因”这类问题，好的答案应该建立图表趋势与文本解释之间的因果联系。
人工满意度评分：让真实用户（如公司员工）使用系统，并对答案的“有用性”、“准确性”、“完整性”进行五星评分。这是最直接的指标。
效率指标：平均响应时间（P99延迟）、单次查询成本。这直接关系到系统的可用性和可持续性。

基于这些评估，MARA的迭代方向也日益清晰：

更细粒度的模态理解：从整图理解，到图中的对象识别、关系检测（如箭头指向、数据标签）。
时序多模态处理：支持视频、动画文档，理解随时间变化的信息。
更强的推理与规划能力：让Agentic RAG部分更智能，能自主规划更复杂的多跳推理路径。
端到端优化：探索将检索器、重排序器、生成器进行联合训练的可能性，虽然挑战巨大，但可能是性能突破的关键。

从“盲人摸象”到“明察秋毫”，MARA框架的实践告诉我们，面向多模态文档的智能问答，绝非简单地将图片OCR后塞给RAG。它需要一套系统性的架构设计，涵盖从精准的模态解析、智能的检索调度、深度的上下文融合，到可控的生成输出。这条路还在不断延伸，但每一次让机器更准确地“看懂”一份复杂文档，都让我们离那个“像问同事一样问文档”的终极目标，更近了一步。