RAG中的代表性上下文压缩方案总结：从RECOMP、CompAct到COCOM

RAG中的长文本压缩，现有的上下文压缩方法主要分为基于词汇的压缩（硬提示，如LLMLingua和RECOMP）和基于嵌入的压缩(软提示，如Gist、AutoCompressor和ICAE)。前者通过选择或总结上下文中的重要词或短语来减少上下文大小，后者则通过嵌入模型将上下文转换为较少的嵌入token。

Python编程杰哥

1092人浏览 · 2024-11-05 20:10:29

Python编程杰哥 · 2024-11-05 20:10:29 发布

但这个对于不同的场景，会有不同的方案，我们来具体看下RAG这个场景的代表方案，可以收藏后续看。

一、基于硬提示的RAG上下文压缩方案

1、RECOMP

《RECOMP: Improving Retrieval-Augmented LMs with Compression and Selective Augmentation》, https://arxiv.org/abs/2310.04408

其核心思想为，通过在上下文增强之前将检索到的文档压缩成文本摘要来提高语言模型的性能，同时减少计算成本。

实现上，包括两个压缩器，

一个是提取式压缩器，从检索到的文档集中选择相关句子。该方法训练一个双编码器模型，将句子和输入序列嵌入到固定维度的嵌入空间中，并通过计算它们的内积来评估句子的有用性。最终摘要是从与输入最相关的句子中选择的前N个句子。

一个是生成式压缩器，通过综合多个检索到的文档中的信息来生成摘要。该方法从一个极端规模的LM（如GPT-3）中蒸馏出一个轻量级的生成式压缩器，使用教师模型生成摘要，并通过一个裁判模型评估生成的摘要对目标任务的表现，选择表现最好的摘要进行训练。

2、CompAct

《Compressing Long Context for Enhancing RAG with AMR-based Concept Distillation》, https://arxiv.org/pdf/2405.03085，其思想在于，使用基于AMR（Abstract Meaning Representation）的概念蒸馏算法来压缩长文本，通过从AMR图中提取关键概念节点，将冗余的支持文档转换为简洁的概念集。

在具体实现上，首先是设计基于概念的RAG框架，该框架通过从原始支持文档中提取的关键概念来增强LLMs的推理能力。框架包括三个主要组件：信息检索、概念蒸馏和基于概念的推理。

其次在这个基础上，采用一种AMR概念蒸馏算法，将支持文档从连续序列转换为离散概念，核心思路为：使用mBart-based解析器将支持文档解析为AMR图；设计SplitSnt函数将AMR图分割成基于句子的子图；通过深度优先搜索（DFS）遍历AMR图中的节点，提取关键概念并格式化为概念集合；处理特殊角色（如:name, :wiki, :date-entity）以确保概念的完整性和一致性；使用ConceptFormat和ConceptBacktrace函数过滤和回溯概念，确保概念与原始支持文档的语义一致。

3、FAVICOMP

《Familiarity-aware Evidence Compression for Retrieval Augmented Generation》,https://arxiv.org/abs/2409.12468，一般RAG面临的主要挑战是LM难以过滤掉多个证据片段中的不一致和不相关信息。FAVICOMP通过引入一种新的集成解码技术，主动降低压缩证据的困惑度，使其对目标模型更熟悉。

具体包括两个步骤：

一个是证据压缩，首先，使用一个压缩模型将检索到的证据文档压缩成一个与输入相关的简洁上下文。压缩模型的目标是将证据文档生成一个查询相关的摘要。

另一个是集成解码，为了使压缩后的证据对目标模型更加熟悉，FAVICOMP引入了集成解码技术。具体来说，在解码过程中，结合压缩模型和目标模型的token概率，选择概率最高的token。

二、基于软提示的RAG上下文压缩方案

1、xRAG

《xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token》（https://arxiv.org/abs/2405.13792, https://github.com/Hannibal046/xRAG），这个工作通过模态融合的方式将文档嵌入直接投影到LLM的表示空间中，从而实现极端的压缩率。

实现上，xRAG通过重新解释密集检索中的文档嵌入，将其视为检索模态的特征，从而实现上下文压缩。具体地，xRAG引入了一个模式投影器W，该投影器被训练以直接将检索特征E投影到语言模型（LLM）的表示空间中。这样，输入到LLM的表示就从传统的嵌入层Emb(D⊕q)变为W(E)⊕Emb(q)，大大减少了输入的长度。

2、COCOM

《Context Embeddings for Efficient Answer Generation in RAG》, https://arxiv.org/pdf/2407.09252，这个工作通过一个压缩器模型将长上下文压缩成少量上下文嵌入。压缩器模型与生成器模型相同，使用相同的预训练语言模型，并通过自编码任务，训练压缩器模型和生成器模型联合学习如何有效地压缩和解压缩上下文。

自适应压缩率：压缩嵌入的数量可以根据压缩率ξ和输入长度n进行调整：

例如，当压缩长度为128的上下文时，压缩率为64，得到2个上下文嵌入，输入减少了64倍。

此外，还可以处理多个检索到的段落上下文，即上下文独立压缩后，使用[SEP]特殊标记在嵌入之间进行区分，然后将其输入到LLM中

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

UFW防火墙安全指南

UFW（Uncomplicated Firewall）是Ubuntu/Debian系统中简化防火墙管理的工具，通过直观命令帮助用户有效控制网络流量，提升系统安全性。文章详细介绍了UFW的基本命令，包括启停防火墙、添加规则、限制连接速率和日志配置等操作，并提供了安全最佳实践，如默认拒绝策略、IP地址限制和服务级规则管理。同时，还涵盖高级配置技巧，例如多网络接口设置、规则优先级调整、IPv6支持及与f