多模态RAG实战：复杂的PPT文档如何处理？一文掌握关键技巧

RAG应用的一大复杂性体现在其多样的原始知识结构与表示。特别在企业场景下，混合多种媒体形式且具有复杂布局的文档随处可见，比如一份PPT：其中可能充满大量的文本、标注、图像与各种统计图表。那么如何对这样的文档构建有效的RAG管道？本文将为您介绍我们的实现过程。

小天才学习机打游戏

1609人浏览 · 2025-03-26 09:39:39

小天才学习机打游戏 · 2025-03-26 09:39:39 发布

RAG应用的一大复杂性体现在其多样的原始知识结构与表示。特别在企业场景下，混合多种媒体形式且具有复杂布局的文档随处可见，比如一份PPT：

其中可能充满大量的文本、标注、图像与各种统计图表。那么如何对这样的文档构建有效的RAG管道？本文将为您介绍我们的实现过程。实验Notebook：

https://github.com/pingcy/multimodal_ppt_rag

先看效果

这里使用《中文大模型基准测评2025年3月报告》这份PPT来做测试，因为它的内容够丰富，且含有大量图表，非常适合用来回答问题。我们期望并达到的效果是，**能够图文****结合的回答PPT内容相关的问题。**比如：

3月份中文大模型评测，通用能力水平最高的模型前五名是谁？

最后输出的答案如下：

通过对PPT相关的更多问题进行评估，效果基本达到了预期。

总体方案与工具

PPT文档（或者转成的PDF）的复杂之处在于：

没有固定的格式与布局
典型的图、文、表混排
相对于文本，更倾向用图表来表示信息

不过PPT文档也有一个优势：有天然的知识块分割，每一页即为一个Chunk。

所以，简单的借助开源解析工具、OCR等做文本提取，然后按普通RAG流程处理，会丢失大量的语义信息。因此我们的方案是借助多模态的视觉大模型（LVM）在索引与生成阶段双管齐下：

索引阶段：对每一页截图，并生成尽可能丰富的文本表示做嵌入
生成阶段：将检索到的文本与关联的截图一起输入大模型用于生成

需要的工具有：

文档解析：豆包vision模型或开启vision的LlamaParse
向量库：本地Chroma
嵌入模型：阿里云Embedding-V3
生成模型：豆包vision模型
框架：LlamaIndex或LangChain

这里的每一步你都可以选择替代方案。

文档解析与索引

有很多解析PDF（PPT转化成PDF）文档的开源工具，如Markitdown，Marker，PyMuPDF4LLM等。不过经过测试，面对PPT这种复杂文档，效果最好的是借助视觉大模型。比如我们用豆包的视觉模型对这一页进行生成（提示词参考源代码）：

它可以很好的提取文字，并对必要内容做整理转化：

当然在一些不清晰，或者元素过多与混乱的局部区域，会有一些误差。这也是为什么在生成时我们希望同时输出原图片来参考的原因。

在测试时为了方便，我们采用了LlamaIndex提供的云端解析服务LlamaParse（打开Vision功能，原理也是借助视觉大模型）来完成这一步。其好处是会帮你保留每一次解析结果：

并可以在后台查看详细解析输出：

采用视觉大模型的解析与索引的处理流程：

【流程说明】

原文档的每一页PPT转为图片，并借助多模态模型解析成每一页的Markdown文本（注意不是简单的文字提取）
【可选】借助LLM对生成的Markdown文本块做适当增强，我们做了两个动作：
- 生成该页的简单摘要
- 生成该页可以回答的5个假设性问题
将每一页的Markdown文本块作为一个Chunk，并根据页码与页面图片关联起来（保存图片路径在Chunk元数据）；用来在检索时能够根据Chunk找到对应图片
嵌入这些文本Chunks，保存到向量库。注意这里不用做分割(Split)。

检索与生成

检索与生成阶段的流程如下：

【流程说明】

从向量库检索关联的块，也就是前面对应到PPT页面的生成文本
根据这些块中的元数据(Image_path)，找到对应的页面截图
将文本块组装成Prompt，与找到的图片一起输入多模态模型，等待响应
对响应做简单转换，以Markdown格式展示最终结果

【重点说明】

由于我们需要将关联的页面图片同时输入视觉模型，因此通常不能借助框架的高层抽象（比如LlamaIndex中的index.as_query_engine）来直接获得RAG引擎后查询。需要自定义一个查询过程，大致如下：

.....
lvm = DoubaoVisionLLM(model_name='你的豆包模型名字')

class MultimodalQueryEngine(CustomQueryEngine):
...

    def custom_query(self, query_str: str):
        
        #检索关联chunk（nodes）
        nodes = recursive_retrieve(query_str)
        
        #组装prompt
        context_str = "\n\n".join(
            [r.get_content(metadata_mode=MetadataMode.LLM) + f'\n以上来自图片：{r.metadata['image_path']}' for r in nodes]
        )
        fmt_prompt = self.qa_prompt.format(context_str=context_str, query_str=query_str)

        #输入提示和图片
        response = self.multi_modal_llm.generate_response(
            prompt=fmt_prompt,
            image_paths = [n.metadata["image_path"] for n in nodes]
        )
...

multi_query_engine = MultimodalQueryEngine(
    multi_modal_llm=lvm
)

这里简单封装了一个豆包的视觉大模型DoubaoVisionLLM，具体参考源码。

另一个技巧是关于输出。如何让输出结果用图文结合的方式来展示呢？我们在Prompt中给予了视觉大模型提示：

...
输出格式：{{"response": #你的Markdown格式的回答#, "image_path": [#与答案最相关的图片路径#]}}
...

然后对输出结果做简单转化：

...
response_json = json.loads(response)
answer = response_json.get("response", "")
image_paths = response_json.get("image_path", [])
 
markdown_output = f"### 答案:\n\n{answer}\n\n### 参考来源:\n"
for image_path in image_paths:
    markdown_output += f"![Image]({image_path})\n"

至此，对PPT构建的多模态RAG管道已经完成。我们用代码做测试：

response = multi_query_engine.query("这次评测中表现最好的开源模型有哪些？")

from IPython.display import Markdown
display(Markdown(response.response))

得到如下答案：

效果似乎还不错！

问题与优化

在测试过程中，我们也发现一些问题与可能优化的空间，包括：

尽管视觉模型已经很强大，但也并非完美，在一些图片解释上会发生少量偏差
多模态模型的使用，特别是在生成阶段，响应速度相对普通LLM会下降，且对Tokens消耗更大（但并非不可接受）。
如果PPT的页数或文档更多，在检索时精确度会下降，特别是输入问题较为模糊时。我们提供了两个优化实现，但未做评估验证：
- 对每个页面再次分割，减小Chunk的粒度，以提高检索精度；并在检索时查找到“父块”用于生成
- 尝试构建了关键词表索引，可结合向量索引进行融合检索。

此外，还可以考虑的一些优化有：

如果有大量PPT，可以借助元数据先做一次过滤
借助Agentic RAG回答不同类型的问题，比如总结性与细节性问题
测试多个向量模型与多模态模型，特别是向量模型对检索结果有较大影响
在实际应用中，生成的页面图片最好放在共享存储用URI访问

以上就是本次全部内容。RAG系统是典型的“三天上线，一年优化”，很多优化都需要反复的验证与评估，如果你有更好的想法，欢迎与我们分享。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

UFW防火墙安全指南

UFW（Uncomplicated Firewall）是Ubuntu/Debian系统中简化防火墙管理的工具，通过直观命令帮助用户有效控制网络流量，提升系统安全性。文章详细介绍了UFW的基本命令，包括启停防火墙、添加规则、限制连接速率和日志配置等操作，并提供了安全最佳实践，如默认拒绝策略、IP地址限制和服务级规则管理。同时，还涵盖高级配置技巧，例如多网络接口设置、规则优先级调整、IPv6支持及与f