论文链接

HybridRAG: 整合知识图谱和向量检索增强生成以提高信息提取效率

摘要

在金融应用中,从非结构化文本数据(如财报电话会议记录)中提取和解析复杂信息是一个重大挑战。尽管当前使用向量数据库进行信息检索的检索增强生成(Retrieval-Augmented Generation,RAG)技术(称为 VectorRAG)已是最佳实践,但由于领域特定术语和复杂文档格式,这些方法仍然存在局限性。

本文提出了一种新方法 HybridRAG,结合了 基于知识图谱(KGs)的 RAG 技术(GraphRAG)基于向量的 RAG 技术(VectorRAG),以增强问答(Q&A)系统对金融文档的信息提取能力。实验结果表明,在财报电话会议记录数据集上,HybridRAG 在检索和生成阶段均优于单独使用 VectorRAG 或 GraphRAG 的方法,能生成更准确和上下文相关的答案。该方法不仅适用于金融领域,也可应用于其他领域的信息提取任务。


1. 引言

金融分析师需要从非结构化数据(新闻、财报、市场报告等)中提取信息,以减少信息不对称,影响投资决策和市场预测。然而,传统数据分析方法难以有效利用这些数据,而 大语言模型(LLMs) 为金融分析和投资管理提供了强大工具,能用于情感分析、市场趋势预测和自动化报告生成。

尽管 LLMs 具有巨大潜力,但其在金融文本信息提取方面仍然面临挑战:

  • 领域特定语言:财报和金融文档包含复杂术语,通用 LLMs 无法很好地处理。
  • 数据格式多样:文档格式不统一,影响模型的一致性。
  • 幻觉问题:LLMs 可能生成与事实不符的信息。
  • 跨文档信息整合:不同来源的信息需要一致性处理。

为解决这些问题,当前的研究聚焦于 检索增强生成(RAG)技术,即在生成答案时结合外部文档进行检索:

  • VectorRAG:利用向量数据库存储文本嵌入,并基于语义相似性检索相关文本,提供上下文信息。
  • GraphRAG:将知识图谱(KGs)与 RAG 结合,使 NLP 任务能基于结构化信息生成答案。

然而,VectorRAG 在财务文档中表现不佳,因为:

  1. 传统 基于段落的文本切分 方法假设文本长度均匀,但财务文本具有层次结构,导致重要信息丢失。
  2. 由于文本复杂性,LLMs 可能检索到质量不均的上下文,影响生成答案的准确性。

知识图谱(KGs) 提供了一种不同的视角,将金融文档视为 实体-关系三元组 结构,可用于:

  • 数据整合:金融 KGs 结合市场数据、财报、新闻等信息,提供全面分析视角。
  • 风险管理:识别隐藏关系,提供更准确的市场预测。

但 GraphRAG 也存在缺陷:

  • 在抽象型 Q&A 任务中表现较差。
  • 若问题不涉及明确的实体,则难以检索到相关信息。

1.1 相关研究与贡献

  • VectorRAG 在 NLP 任务中的应用较广,但对长文档的检索机制仍存挑战。
  • GraphRAG 结合 KGs 提高 NLP 任务的精准度,但在抽象问答任务中表现不佳。
  • 本文贡献
    • 提出 HybridRAG:结合 VectorRAG 和 GraphRAG 的优势,提供更准确的信息检索和生成能力。
    • 构建金融 Q&A 数据集:基于 Nifty-50 指数成分股的财报电话会议记录,提取高质量的问答数据。

2. 方法论

HybridRAG 由 VectorRAG 和 GraphRAG 组成。
在这里插入图片描述

2.1 VectorRAG

  • 先将外部文档拆分为多个 文本块(chunks),每个块转换为嵌入向量,存储到向量数据库(如 Pinecone)。
  • 查询时,通过相似度搜索检索最相关的文本块,并与问题一起输入 LLM 生成答案。

2.2 知识图谱构建

  1. 知识提取

    • 实体识别(NER):识别公司、财务指标、管理层等实体。
    • 关系抽取:识别实体之间的关系,如「公司A 收购 公司B」。
    • 共指消解:解决文本中相同实体的不同指称(如「公司A」和「它」)。
  2. 知识完善

    • KG 补全:使用关系预测方法填补缺失的实体和关系。
    • 知识融合:整合来自不同数据源的信息,消除冲突。
  3. KG 存储

    • 将实体、关系存入 图数据库,形成 三元组 (h, r, o) 结构(如:「Tesla - 收购 - SolarCity」)。
    • 采用 LangChain 和 NetworkX 进行 KG 处理。

2.3 GraphRAG

  • 通过查询 知识图谱 检索相关的 子图(包含相关实体和关系),并将其转换为 LLM 可理解的文本格式,作为额外上下文信息提供给 LLM。

2.4 HybridRAG

  • 结合 VectorRAGGraphRAG,同时检索文本向量和知识图谱的上下文信息,并融合两者来生成最终答案。

3. 数据描述

  • 数据来源:Nifty 50 成分股的财报电话会议记录(2023 年 6 月)。
  • 数据规模
    • 50 份财报电话会议记录
    • 平均每份文档 27 页
    • 平均每份文档包含 16 个 Q&A 对
    • 平均 60,000 个 token
  • 数据处理
    • 采用 爬虫 获取财报文本。
    • 提取 400 个问答对 作为基准数据集。

4. 实验实现

  • VectorRAG
    • 采用 Pinecone 向量数据库,使用 OpenAI text-embedding-ada-002 进行嵌入计算。
  • GraphRAG
    • 采用 NetworkX 进行 KG 存储和查询。
  • HybridRAG
    • 结合 VectorRAG 和 GraphRAG 的检索结果,构建更丰富的上下文信息。

5. 结果分析

  • HybridRAG 取得最佳效果
    方法 Faithfulness Answer Relevance Context Precision Context Recall
    VectorRAG 0.94 0.91 0.84 1.00
    GraphRAG 0.96 0.89 0.96 0.85
    HybridRAG 0.96 0.96 0.79 1.00

HybridRAG 在 Faithfulness(忠实度)和 Answer Relevance(答案相关性) 上优于单独的 VectorRAG 和 GraphRAG。


6. 结论

HybridRAG 结合 向量检索知识图谱 优势,在金融文档信息提取任务中表现优越。未来研究方向包括:

  • 多模态数据整合(文本+图表)
  • 实时市场数据分析
  • 改进评估指标

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐