【论文解读】HybridRAG: Integrating Knowledge Graphs and Vector Retrieval Augmented Generation

尽管当前使用向量数据库进行信息检索的检索增强生成（Retrieval-Augmented Generation，RAG）技术（称为 VectorRAG）已是最佳实践，但由于领域特定术语和复杂文档格式，这些方法仍然存在局限性。实验结果表明，在财报电话会议记录数据集上，HybridRAG 在检索和生成阶段均优于单独使用 VectorRAG 或 GraphRAG 的方法，能生成更准确和上下文相关的答案。

qq_30731313

1099人浏览 · 2025-02-24 09:47:12

qq_30731313 · 2025-02-24 09:47:12 发布

论文链接

HybridRAG: 整合知识图谱和向量检索增强生成以提高信息提取效率

摘要

在金融应用中，从非结构化文本数据（如财报电话会议记录）中提取和解析复杂信息是一个重大挑战。尽管当前使用向量数据库进行信息检索的检索增强生成（Retrieval-Augmented Generation，RAG）技术（称为 VectorRAG）已是最佳实践，但由于领域特定术语和复杂文档格式，这些方法仍然存在局限性。

本文提出了一种新方法 HybridRAG，结合了 基于知识图谱（KGs）的 RAG 技术（GraphRAG） 和 基于向量的 RAG 技术（VectorRAG），以增强问答（Q&A）系统对金融文档的信息提取能力。实验结果表明，在财报电话会议记录数据集上，HybridRAG 在检索和生成阶段均优于单独使用 VectorRAG 或 GraphRAG 的方法，能生成更准确和上下文相关的答案。该方法不仅适用于金融领域，也可应用于其他领域的信息提取任务。

1. 引言

金融分析师需要从非结构化数据（新闻、财报、市场报告等）中提取信息，以减少信息不对称，影响投资决策和市场预测。然而，传统数据分析方法难以有效利用这些数据，而 大语言模型（LLMs） 为金融分析和投资管理提供了强大工具，能用于情感分析、市场趋势预测和自动化报告生成。

尽管 LLMs 具有巨大潜力，但其在金融文本信息提取方面仍然面临挑战：

领域特定语言：财报和金融文档包含复杂术语，通用 LLMs 无法很好地处理。
数据格式多样：文档格式不统一，影响模型的一致性。
幻觉问题：LLMs 可能生成与事实不符的信息。
跨文档信息整合：不同来源的信息需要一致性处理。

为解决这些问题，当前的研究聚焦于 检索增强生成（RAG）技术，即在生成答案时结合外部文档进行检索：

VectorRAG：利用向量数据库存储文本嵌入，并基于语义相似性检索相关文本，提供上下文信息。
GraphRAG：将知识图谱（KGs）与 RAG 结合，使 NLP 任务能基于结构化信息生成答案。

然而，VectorRAG 在财务文档中表现不佳，因为：

传统 基于段落的文本切分 方法假设文本长度均匀，但财务文本具有层次结构，导致重要信息丢失。
由于文本复杂性，LLMs 可能检索到质量不均的上下文，影响生成答案的准确性。

知识图谱（KGs） 提供了一种不同的视角，将金融文档视为 实体-关系三元组 结构，可用于：

数据整合：金融 KGs 结合市场数据、财报、新闻等信息，提供全面分析视角。
风险管理：识别隐藏关系，提供更准确的市场预测。

但 GraphRAG 也存在缺陷：

在抽象型 Q&A 任务中表现较差。
若问题不涉及明确的实体，则难以检索到相关信息。

1.1 相关研究与贡献

VectorRAG 在 NLP 任务中的应用较广，但对长文档的检索机制仍存挑战。
GraphRAG 结合 KGs 提高 NLP 任务的精准度，但在抽象问答任务中表现不佳。
本文贡献：
- 提出 HybridRAG：结合 VectorRAG 和 GraphRAG 的优势，提供更准确的信息检索和生成能力。
- 构建金融 Q&A 数据集：基于 Nifty-50 指数成分股的财报电话会议记录，提取高质量的问答数据。

2. 方法论

HybridRAG 由 VectorRAG 和 GraphRAG 组成。
在这里插入图片描述

2.1 VectorRAG

先将外部文档拆分为多个 文本块（chunks），每个块转换为嵌入向量，存储到向量数据库（如 Pinecone）。
查询时，通过相似度搜索检索最相关的文本块，并与问题一起输入 LLM 生成答案。

2.2 知识图谱构建

知识提取：
- 实体识别（NER）：识别公司、财务指标、管理层等实体。
- 关系抽取：识别实体之间的关系，如「公司A 收购公司B」。
- 共指消解：解决文本中相同实体的不同指称（如「公司A」和「它」）。
知识完善：
- KG 补全：使用关系预测方法填补缺失的实体和关系。
- 知识融合：整合来自不同数据源的信息，消除冲突。
KG 存储：
- 将实体、关系存入 图数据库，形成 三元组 (h, r, o) 结构（如：「Tesla - 收购 - SolarCity」）。
- 采用 LangChain 和 NetworkX 进行 KG 处理。

2.3 GraphRAG

通过查询 知识图谱 检索相关的子图（包含相关实体和关系），并将其转换为 LLM 可理解的文本格式，作为额外上下文信息提供给 LLM。

2.4 HybridRAG

结合 VectorRAG 和 GraphRAG，同时检索文本向量和知识图谱的上下文信息，并融合两者来生成最终答案。

3. 数据描述

数据来源：Nifty 50 成分股的财报电话会议记录（2023 年 6 月）。
数据规模：
- 50 份财报电话会议记录
- 平均每份文档 27 页
- 平均每份文档包含 16 个 Q&A 对
- 平均 60,000 个 token
数据处理：
- 采用爬虫获取财报文本。
- 提取 400 个问答对 作为基准数据集。

4. 实验实现

VectorRAG：
- 采用 Pinecone 向量数据库，使用 OpenAI text-embedding-ada-002 进行嵌入计算。
GraphRAG：
- 采用 NetworkX 进行 KG 存储和查询。
HybridRAG：
- 结合 VectorRAG 和 GraphRAG 的检索结果，构建更丰富的上下文信息。

5. 结果分析

HybridRAG 取得最佳效果：

方法	Faithfulness	Answer Relevance	Context Precision	Context Recall
VectorRAG	0.94	0.91	0.84	1.00
GraphRAG	0.96	0.89	0.96	0.85
HybridRAG	0.96	0.96	0.79	1.00

HybridRAG 在 Faithfulness（忠实度）和 Answer Relevance（答案相关性） 上优于单独的 VectorRAG 和 GraphRAG。

6. 结论

HybridRAG 结合 向量检索 和 知识图谱 优势，在金融文档信息提取任务中表现优越。未来研究方向包括：

多模态数据整合（文本+图表）
实时市场数据分析
改进评估指标

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

UFW防火墙安全指南

UFW（Uncomplicated Firewall）是Ubuntu/Debian系统中简化防火墙管理的工具，通过直观命令帮助用户有效控制网络流量，提升系统安全性。文章详细介绍了UFW的基本命令，包括启停防火墙、添加规则、限制连接速率和日志配置等操作，并提供了安全最佳实践，如默认拒绝策略、IP地址限制和服务级规则管理。同时，还涵盖高级配置技巧，例如多网络接口设置、规则优先级调整、IPv6支持及与f