技术科普｜首个 GraphRAG-Bench 如何评估九大 GraphRAG 性能？

导读：传统 RAG 遇瓶颈，复杂推理怎么办？ GraphRAG 正成为知识管理新利器。但关键问题来了：GraphRAG 真的超越了 RAG 吗？GraphRAG 哪家强？GraphRAG 性能评估标准有哪些？面针对不同场景需求如何选择？香港理工大学等学者在 6 月 3 日发表论文，重磅推出首个大规模、领域特定基准 GraphRAG-Bench，为技术选型提供硬核依据。

🔍本文翻译略有删减，论文原文如下

https://arxiv.org/pdf/2506.02404

一、摘要

图检索增强生成（Graph Retrieval-Augmented Generation, GraphRAG）因其在结构化组织领域特定语料库并提升复杂推理能力的潜力，正日益受到认可。然而，当前 GraphRAG 模型的评估主要依赖传统的问答数据集。这些数据集在问题广度和评估指标上存在局限性，无法全面衡量 GraphRAG 模型所带来的推理能力提升。

为弥补这一不足，我们提出了 GraphRAG-Bench，这是一个为严格评估 GraphRAG 模型而设计的大规模、领域特定基准。

我们的基准具备三大优势：

挑战性问题设计：包含大学水平、领域特定的问题，要求进行多跳推理，确保仅靠简单内容检索不足以解决问题。例如，部分问题涉及数学推理或编程。
多样化任务覆盖：数据集涵盖广泛的推理任务类型，包括单项选择（MC）、判断正误（TF）、多项选择（MS）、开放式问答（OE）和填空（FB）。问题来源覆盖 20 本核心教材中的 16 个学科。
全方位评估框架： GraphRAG-Bench 提供了覆盖整个 GraphRAG 流程的全面评估，包括图构建、知识检索和答案生成。除了最终答案的正确性，它还评估推理过程的逻辑连贯性。

通过将九种前沿 GraphRAG 方法应用于 GraphRAG-Bench，我们量化了基于图的结构化如何提升模型推理能力。我们的分析揭示了关于图架构、检索效能和推理能力的关键见解，为业界研究提供了可操作的指导。

GraphRAG-Bench 的所有相关资源均已收集在：

https://github.com/jeremycp3/GraphRAG-Bench

二、研究背景

检索增强生成（Retrieval-Augmented Generation, RAG）已成为将大型语言模型（Large Language Models, LLMs）植根于外部知识的关键解决方案，用以缓解幻觉问题及领域知识匮乏的问题。通过从语料库中检索相关文本片段，RAG 为 LLM 注入事实性知识，以生成更可靠的输出。

然而，传统的 RAG 系统在处理复杂推理场景时仍不尽如人意。RAG 中的扁平检索仅基于相似度匹配直接返回零碎的文本块，这限制了其对概念间复杂关系建模的能力，难以回答需要多跳推理、全局理解问题。例如：

“2008年雷曼兄弟破产事件对埃隆·马斯克的特斯拉公司有何影响？”

“贸易政策变革事件的主要思想是什么？”

为应对这些局限，图检索增强生成（GraphRAG）被广泛研究，旨在以图的形式捕捉概念间的结构化知识。其中节点代表概念，边代表概念间的关系。GraphRAG 的最新进展可归纳为三个主要方向。

分层图构建方法，通过树形结构和社区检测来组织知识。
神经图检索方法，采用图神经网络编码器并结合专门的目标函数进行多跳推理。
动态知识集成系统，开发了与 LLM 紧密耦合的自适应图构建和遍历机制。

通过将知识结构化为图，GraphRAG 不仅使 LLM 能够沿着显式关系路径进行遍历和推理，还能基于图结构推断隐含关系，从而支持更深层次的推理。

然而，尽管前景广阔，现有的 GraphRAG 方法基准未能充分反映其在图结构上进行推理的性能。这些基准主要利用传统的问答数据集，如 HotpotQA 、2WikiMultiHopQA 和 MuSiQue ，这些数据集仅包含复杂度有限、答案简短的显式事实性问题，例如“Dambar Shah 的孙子是谁？”。

这些数据集存在三个关键局限：

仅包含常识性问题，这些问题可能已被 LLM 的训练语料覆盖。
通常仅需基于显式连接的单跳或浅层多跳推理，不足以探明图结构知识的独特优势。
答案形式单一：多数答案为简短形式（名称、日期）或选择题，难以反映基于图的推理能力。

因此，我们提出一个研究问题：

“GraphRAG 是否真正超越了传统 RAG，提升了模型的推理能力？”

三、研究方法与实验设计

（一）研究方法

1. 问题设计

为了在大学水平推理上评估 GraphRAG 框架，我们首先构建了一个权威教材语料库。从涵盖计算机科学 16 个不同子领域的 100 多份出版物出发，系统性地筛选出最具代表性的 20 本教材。我们定义了五种问题类型，每种针对 GraphRAG 推理能力的不同方面。最终选取出 1018 道高质量挑战性问题，覆盖了广泛的主题。

2. 语料库收集与处理

（1）预处理阶段区分 PDF 文本页与扫描页，分别采用直接提取和 OCR，并提取教材元数据（大纲、章节页码）。

（2）内容解析阶段：

使用 LayoutLMv3 进行多模态布局分析，分割页面为标题、段落等语义块
用 YOLO 模型检测并隔离数学公式区域避免 OCR 错误
对扫描页指定区域应用 OCR 获取文本

（3）后处理阶段通过 MinerU 工具按阅读顺序重组可能混乱的解析元素（文本、公式等）。

（4）基于元数据构建四级层级结构（书名→章→节→知识单元），形成带结构标注的教材树。

3. 专家撰写推理依据

现有基准通常仅提供最终答案或显式图路径。相比之下，我们的数据集提供了专家撰写的推理依据，清晰阐述了解决每个问题所需的完整逻辑推进过程。

这些推理依据超越了简单的语料聚合，是结构化的叙述，能够：(i) 分离出前提概念，(ii) 描述这些概念间的关系，以及 (iii) 指明问题求解过程中应用的推理操作。

通过追踪逻辑推理和知识交互的每一步，我们可以评估 GraphRAG 模型是否真正生成了基于上下文的解释，还是仅仅利用了表面模式。

为实现细粒度、主题特定的评估，我们数据集中的每个问题都带有两个层级标签：一个宽泛的子领域（Level 1，例如“机器学习”）和一个更细粒度的概念（Level 2，例如“无监督学习”）。这些标注支撑了我们的后验分析。对于每个主题，我们不仅衡量模型答案的准确性，还衡量其生成的推理依据与标准依据的契合度。通过这种方式，我们将评估转化为一个多维过程，要求模型既要提供正确答案，也要生成忠实可信的推理模式。

（二）实验设计

1. 评估指标

图构建：

效率 (Efficiency)： 构建完整图所需的时间。

成本 (Cost)： 图构建过程中消耗的 token 数量。

组织度 (Organization)： 构建图中非孤立节点所占的比例（衡量图的连通性）。
知识检索：

索引时间 (Indexing time)： 构建用于检索的向量数据库所需的时间。

平均检索时间 (Average retrieval time)： 每个查询进行知识检索的平均耗时。此外，我们总结每种方法使用的检索操作对象（Retrieval operators）以评估其检索机制的复杂度。
生成：

我们认为现有的精确匹配（exact match）指标并不合适，因为正确答案无需逐词对应。因此，本文引入了一个新指标：准确率 (Accuracy)，定义如下：

OE 和 FB 问题： 将生成输出和标准答案通过我们设计的提示词（prompt）输入一个 LLM，该 LLM 基于语义对齐和正确性打分。

MC 和 TF 问题： 答案正确得 1 分，否则 0 分。

MS 问题： 完全正确得 1 分；部分正确得 0.5 分；错误得 0 分。

推理依据：

推理得分 (R, Reasoning Score)： 我们设计了一个提示词，将 GraphRAG 方法生成的推理依据和标准依据输入一个 LLM，该 LLM 给出一个推理得分（R）以评估它们的语义对应和推理一致性。

答案相关推理得分 (AR, Answer-related Reasoning Score)： 我们额外开发了 AR 指标，用于判断当模型准确回答问题时，其是否能提供正确的推理。此指标旨在区分模型是仅仅猜对了答案，还是确实通过合理的逻辑推理得出了正确答案，从而更全面地理解模型性能。

2. 实验设置

评估了九种前沿 GraphRAG 方法的性能，为确保所有方法公平比较，采用相同的 GPT-4o-mini 作为默认的大型语言模型。我们没有设置最大 token 长度来限制单个方法的性能。对于需要选择 top-k 的方法，我们统一设置 k=5。在文本分块方面，块大小统一设置为 1200 个token.

四、实验结果

（一）图构建评估

1. Token 与时间成本

树结构的 Token 成本最低，因为它仅调用 LLM 生成摘要，但由于迭代聚类，耗时最长。
段落图的 Token 成本次优，仅调用 LLM 总结实体或关系，时间成本第二长，归因于耗时的实体链接过程。
知识图谱 Token 消耗适中，需要 LLM 进行实体提取和三元组生成，但因三元组获取后知识图谱构建快速，达到最短耗时（DALK 最快）。
丰富知识图谱 Token 消耗最多，因为它在标准知识图谱基础上通过LLM为实体和关系生成额外描述，导致时间成本增加。

2. 组织度

使用非孤立节点比例作为指标（树结构不适用此指标）。结果显示知识图谱表现最佳，其非孤立节点比例保持在约90%。丰富知识图谱表现次优；虽然引入了额外信息，但也不可避免地引入了更多噪声。段落图的非孤立节点比例最低，表明实体链接工具未能有效建立大多数实体对之间的边。

（二）知识检索评估

索引时间： GFM-RAG 索引时间最短；它不构建传统的向量数据库存储实体，而是在图构建阶段专门存储与问题对应的实体。在使用向量数据库的方法中，KGP、RAPTOR 和 DALK 因存储信息量少而成本较低；ToG、G-Retriever 和 LightRAG 成本适中，因为存储关系本身耗时；GraphRAG 因额外存储社区报告而进一步增加索引时间。HippoRAG 索引时间最长，归因于其额外构建实体<->关系和关系<->文本块映射。
平均检索时间： RAPTOR 速度最快，其树结构能快速定位信息。GFM-RAG 和 HippoRAG 紧随其后，分别利用 GNN 和 PageRank 算法进行检索。G-Retriever 采用带奖励收集斯坦纳森林算法（Prize Collecting Steiner Forest），LightRAG 依赖基于关系的检索，两者都引入了额外延迟。GraphRAG 需要利用社区信息检索，导致耗时较长。KGP、ToG 和 DALK 因检索时依赖调用 LLM 而产生显著时间成本。

（三）生成准确率评估

鉴于 GPT-4o-mini 本身已具备较强的问答能力，并非所有 GraphRAG 方法都能有效提升其性能。
性能下降： DALK 和 G-Retriever 反而降低了 LLM 性能；它们过度依赖结构信息而牺牲了语义内容，在生成过程中引入了过多噪声，损害了 LLM 的判断准确性。
小幅提升： LightRAG、ToG 和 KGP 实现了小幅性能提升，表明其检索到的内容对生成任务提供了有限的帮助。
显著提升： 相比之下，GFM-RAG、GraphRAG 和 HippoRAG 通过有效整合图结构信息和文本块级语义显著提升了 LLM 性能：GFM-RAG 利用大规模预训练获得鲁棒的基础模型，GraphRAG 利用基于社区的信息优化检索，HippoRAG 通过 PageRank 算法提升检索效率。
最佳方法： 实验中表现最佳的方法是 RAPTOR，它通过迭代聚类构建树结构，这种设计与教材数据天然的分层组织结构高度契合，能够高效检索相关信息。
超越传统 RAG： 大多数 GraphRAG 方法优于 BM-25 和 TF-IDF 等传统 RAG 基线，突显了基于图的架构在提升生成准确率方面的效用。

（四）推理能力评估

与生成任务的高准确率相比，GPT-4o-mini 在推理性能（ R 和 AR 得分）上表现出显著下降。R 得分的下降表明 LLM 常常无法进行正确推理，而是在许多情况下通过猜测或模式匹配来选择答案。AR 得分的下降表明，即使 LLM 提供了正确答案，其推理过程也可能存在缺陷；或者它们可能生成了正确推理但选择了错误答案。
显著提升： 所有 GraphRAG 方法都显著增强了 LLM 的推理能力：通过不同的算法设计，这些方法不仅检索到与问题语义相关的语料，还识别出知识库中具有多跳依赖性的语料，为 LLM 的推理提供了证据支持。这使得 LLM 能够基于外部信息进行推理，而非仅依赖内部知识进行猜测。
算法性能分布： 在算法性能分布上，与生成任务类似：HippoRAG 和 RAPTOR 仍是表现最好的，这很直观，因为检索到有用信息本身就与实现正确推理相关。
超越传统 RAG： 大多数 GraphRAG 方法仍然优于传统 RAG 基线（TF-IDF, BM-25）。

（五）主题特定生成准确率分析

鉴于我们的数据集跨越 16 个不同主题领域，我们对 GraphRAG 对 LLM 生成准确率的影响进行了细粒度分析。总体而言，GraphRAG 在大多数领域带来了一致的提升。然而，也发现了一些有趣的发现：

数学领域： 所有 GraphRAG 方法都降低了 LLM 在数学题上的生成准确率。这是因为数学问题关键依赖于严格的符号操作和精确的推理链；模型必须在内部“计算”每个演绎步骤，而非依赖外部文本的关键词匹配。通过 GraphRAG 检索到的大多数文档是解释性或概念性的，其符号表示、公式布局和上下文结构常与问题要求不符，导致信息提取和转换过程中产生歧义或关键步骤丢失。
伦理领域： GraphRAG 和 LLM 本身在伦理题上的表现都平平。我们认为伦理问题从根本上涉及主观价值判断，其含义取决于道德权衡和社会规范的动态语境。LLM 通过统计学习捕捉的符号表示难以准确建模模糊的伦理概念，在推理上存在固有局限。
稳健性： 优秀的 GraphRAG 方法在大多数主题上显著提升了 LLM 的生成准确率，展现出稳健的性能，验证了其跨领域有效性。

五、Observation

🙋GraphRAG 能否提升所有问题类型的性能？

单项选择问题准确率下降： LLM 通过在大型语料库上的广泛训练内化了海量知识，使其在选择题任务中常能正确选择答案。然而，GraphRAG 基于检索的增强可能引入冗余或松散相关的信息，这些信息与问题语境并非精确匹配。此类检索噪声会干扰模型的决策能力，最终降低其在单项选择问题上的准确率。
判断正误问题性能提升： TF 问题需要对事实或逻辑陈述进行二元判断。LLM 可能对某些事实存在盲点或不完整的知识，导致错误答案。通过检索相关的事实证据，GraphRAG 帮助模型在回答前验证陈述。这些补充信息提高了模型在判断正误问题上的准确率。
开放式问题性能提升： 开放式问题允许广泛、详细的回答，这对于仅依赖内部知识的 LLM 来说可能具有挑战性。GraphRAG 通过提供来自外部语料库的额外上下文和事实来缓解这一挑战。检索到的信息丰富了模型的回答，提升了主题细节和表达能力，并通过将答案基于明确证据来减少幻觉。
填空和多项选择问题的不同效果： 填空问题需要精确的上下文理解以正确预测缺失词。GraphRAG 检索到的语料通常无法匹配确切的语境，引入噪声从而降低模型在填空问题上的表现。多项选择题需要从一组选项中选择多个正确答案，涉及对选项复杂组合的推理；如果 GraphRAG 的检索遗漏了相关答案选项或包含了无关细节，则可能混淆模型。因此，这些问题类型对检索精度要求很高；除非 GraphRAG 的检索非常精确，否则其收益可能有限。

🙋GraphRAG 能否有效增强 LLM 的推理能力？

实验表明，GraphRAG 能有效增强 LLM 在各种问题类型上的推理能力，提高了在生成答案的同时生成正确推理依据的概率。

这归功于其高效的检索机制，不仅能为问题识别高度相关的语料，还能为 LLM 的推理过程提供有力的证据支持。特别是，现有基准缺乏对 GraphRAG 推理能力的系统性评估，而这在实际应用中至关重要。例如，在本文针对的大学级教育场景中，寻求专业知识的用户不仅期望正确答案，还期望清晰的推理依据以促进理解和知识获取。同样，在医疗场景中，患者需要清晰的用药依据和治疗建议，以确保决策的透明度。因此，有效的 GraphRAG 方法不仅应追求答案生成的高准确率，还应追求强大的推理和可解释性。

六、结论

本文提出了 GraphRAG-Bench，这是首个专为 GraphRAG 设计的领域特定基准。它包含一个跨越 16 个学科的数据集，通过多跳推理、复杂算法/编程任务、数学计算和多样化问题类型挑战现有方法，覆盖图构建、知识检索、生成和推理的全方位、多维评估，量化了结构化知识增强对 LLM 推理能力的提升。在九种前沿 GraphRAG 方法上进行的广泛实验，揭示了图集成在提升推理和生成性能方面的重要作用。

‍