【论文解读】HybridRAG: Integrating Knowledge Graphs and Vector Retrieval Augmented Generation
尽管当前使用向量数据库进行信息检索的检索增强生成(Retrieval-Augmented Generation,RAG)技术(称为 VectorRAG)已是最佳实践,但由于领域特定术语和复杂文档格式,这些方法仍然存在局限性。实验结果表明,在财报电话会议记录数据集上,HybridRAG 在检索和生成阶段均优于单独使用 VectorRAG 或 GraphRAG 的方法,能生成更准确和上下文相关的答案。
论文链接
HybridRAG: 整合知识图谱和向量检索增强生成以提高信息提取效率
摘要
在金融应用中,从非结构化文本数据(如财报电话会议记录)中提取和解析复杂信息是一个重大挑战。尽管当前使用向量数据库进行信息检索的检索增强生成(Retrieval-Augmented Generation,RAG)技术(称为 VectorRAG)已是最佳实践,但由于领域特定术语和复杂文档格式,这些方法仍然存在局限性。
本文提出了一种新方法 HybridRAG,结合了 基于知识图谱(KGs)的 RAG 技术(GraphRAG) 和 基于向量的 RAG 技术(VectorRAG),以增强问答(Q&A)系统对金融文档的信息提取能力。实验结果表明,在财报电话会议记录数据集上,HybridRAG 在检索和生成阶段均优于单独使用 VectorRAG 或 GraphRAG 的方法,能生成更准确和上下文相关的答案。该方法不仅适用于金融领域,也可应用于其他领域的信息提取任务。
1. 引言
金融分析师需要从非结构化数据(新闻、财报、市场报告等)中提取信息,以减少信息不对称,影响投资决策和市场预测。然而,传统数据分析方法难以有效利用这些数据,而 大语言模型(LLMs) 为金融分析和投资管理提供了强大工具,能用于情感分析、市场趋势预测和自动化报告生成。
尽管 LLMs 具有巨大潜力,但其在金融文本信息提取方面仍然面临挑战:
- 领域特定语言:财报和金融文档包含复杂术语,通用 LLMs 无法很好地处理。
- 数据格式多样:文档格式不统一,影响模型的一致性。
- 幻觉问题:LLMs 可能生成与事实不符的信息。
- 跨文档信息整合:不同来源的信息需要一致性处理。
为解决这些问题,当前的研究聚焦于 检索增强生成(RAG)技术,即在生成答案时结合外部文档进行检索:
- VectorRAG:利用向量数据库存储文本嵌入,并基于语义相似性检索相关文本,提供上下文信息。
- GraphRAG:将知识图谱(KGs)与 RAG 结合,使 NLP 任务能基于结构化信息生成答案。
然而,VectorRAG 在财务文档中表现不佳,因为:
- 传统 基于段落的文本切分 方法假设文本长度均匀,但财务文本具有层次结构,导致重要信息丢失。
- 由于文本复杂性,LLMs 可能检索到质量不均的上下文,影响生成答案的准确性。
知识图谱(KGs) 提供了一种不同的视角,将金融文档视为 实体-关系三元组 结构,可用于:
- 数据整合:金融 KGs 结合市场数据、财报、新闻等信息,提供全面分析视角。
- 风险管理:识别隐藏关系,提供更准确的市场预测。
但 GraphRAG 也存在缺陷:
- 在抽象型 Q&A 任务中表现较差。
- 若问题不涉及明确的实体,则难以检索到相关信息。
1.1 相关研究与贡献
- VectorRAG 在 NLP 任务中的应用较广,但对长文档的检索机制仍存挑战。
- GraphRAG 结合 KGs 提高 NLP 任务的精准度,但在抽象问答任务中表现不佳。
- 本文贡献:
- 提出 HybridRAG:结合 VectorRAG 和 GraphRAG 的优势,提供更准确的信息检索和生成能力。
- 构建金融 Q&A 数据集:基于 Nifty-50 指数成分股的财报电话会议记录,提取高质量的问答数据。
2. 方法论
HybridRAG 由 VectorRAG 和 GraphRAG 组成。
2.1 VectorRAG
- 先将外部文档拆分为多个 文本块(chunks),每个块转换为嵌入向量,存储到向量数据库(如 Pinecone)。
- 查询时,通过相似度搜索检索最相关的文本块,并与问题一起输入 LLM 生成答案。
2.2 知识图谱构建
-
知识提取:
- 实体识别(NER):识别公司、财务指标、管理层等实体。
- 关系抽取:识别实体之间的关系,如「公司A 收购 公司B」。
- 共指消解:解决文本中相同实体的不同指称(如「公司A」和「它」)。
-
知识完善:
- KG 补全:使用关系预测方法填补缺失的实体和关系。
- 知识融合:整合来自不同数据源的信息,消除冲突。
-
KG 存储:
- 将实体、关系存入 图数据库,形成 三元组 (h, r, o) 结构(如:「Tesla - 收购 - SolarCity」)。
- 采用 LangChain 和 NetworkX 进行 KG 处理。
2.3 GraphRAG
- 通过查询 知识图谱 检索相关的 子图(包含相关实体和关系),并将其转换为 LLM 可理解的文本格式,作为额外上下文信息提供给 LLM。
2.4 HybridRAG
- 结合 VectorRAG 和 GraphRAG,同时检索文本向量和知识图谱的上下文信息,并融合两者来生成最终答案。
3. 数据描述
- 数据来源:Nifty 50 成分股的财报电话会议记录(2023 年 6 月)。
- 数据规模:
- 50 份财报电话会议记录
- 平均每份文档 27 页
- 平均每份文档包含 16 个 Q&A 对
- 平均 60,000 个 token
- 数据处理:
- 采用 爬虫 获取财报文本。
- 提取 400 个问答对 作为基准数据集。
4. 实验实现
- VectorRAG:
- 采用 Pinecone 向量数据库,使用 OpenAI
text-embedding-ada-002
进行嵌入计算。
- 采用 Pinecone 向量数据库,使用 OpenAI
- GraphRAG:
- 采用 NetworkX 进行 KG 存储和查询。
- HybridRAG:
- 结合 VectorRAG 和 GraphRAG 的检索结果,构建更丰富的上下文信息。
5. 结果分析
- HybridRAG 取得最佳效果:
方法 Faithfulness Answer Relevance Context Precision Context Recall VectorRAG 0.94 0.91 0.84 1.00 GraphRAG 0.96 0.89 0.96 0.85 HybridRAG 0.96 0.96 0.79 1.00
HybridRAG 在 Faithfulness(忠实度)和 Answer Relevance(答案相关性) 上优于单独的 VectorRAG 和 GraphRAG。
6. 结论
HybridRAG 结合 向量检索 和 知识图谱 优势,在金融文档信息提取任务中表现优越。未来研究方向包括:
- 多模态数据整合(文本+图表)
- 实时市场数据分析
- 改进评估指标
更多推荐
所有评论(0)