Skip to main content
Version: DEV

运行检索测试

在您的知识库上执行检索测试,以检查是否可以检索到预期的分块。


在文件上传和解析后,建议您在继续聊天助手配置之前运行检索测试。运行检索测试绝不是不必要或多余的步骤!就像微调精密仪器一样,RAGFlow 需要仔细调优才能提供最佳的问题回答性能。您的知识库设置、聊天助手配置以及指定的大模型和小模型都可能显著影响最终结果。运行检索测试验证是否可以恢复预期的分块,让您快速识别需要改进的领域或找出需要解决的问题。例如,在调试问答系统时,如果您知道可以检索到正确的分块,您可以将精力集中在其他地方。例如,在问题 #5627 中,发现问题是由于 LLM 的限制造成的。

在检索测试期间,使用混合搜索检索从您指定的分块方法创建的分块。此搜索根据您的设置将加权关键词相似性与加权向量余弦相似性或加权重排序分数相结合:

  • 如果未选择重排序模型,加权关键词相似性将与加权向量余弦相似性相结合。
  • 如果选择了重排序模型,加权关键词相似性将与加权向量重排序分数相结合。

相比之下,从知识图谱构建创建的分块仅使用向量余弦相似性进行检索。

先决条件

  • 在运行检索测试之前,您的文件已上传并成功解析。
  • 在启用使用知识图谱之前,必须成功构建知识图谱。

配置

相似度阈值

这设置了检索分块的门槛:相似度低于阈值的分块将被过滤掉。默认情况下,阈值设置为 0.2。这意味着只有混合相似度分数为 20 或更高的分块才会被检索。

关键词相似度权重

这设置关键词相似性在组合相似度分数中的权重,无论是与向量余弦相似性还是重排序分数一起使用。默认情况下,它设置为 0.7,使其他组件的权重为 0.3(1 - 0.7)。

重排序模型

  • 如果留空,RAGFlow 将使用加权关键词相似性和加权向量余弦相似性的组合。
  • 如果选择了重排序模型,加权关键词相似性将与加权向量重排序分数相结合。
重要

使用重排序模型将显著增加接收响应的时间。

使用知识图谱

在知识图谱中,实体描述、关系描述或社区报告各自作为独立分块存在。此开关指示是否将这些分块添加到检索中。

默认情况下,此开关被禁用。启用后,RAGFlow 在检索测试期间执行以下操作:

  1. 使用 LLM 从您的查询中提取实体和实体类型。
  2. 使用提取的实体类型,根据其 PageRank 值从图谱中检索前 N 个实体。
  3. 使用提取的查询实体的嵌入,从图谱中找到相似实体及其 N 跳关系。
  4. 使用查询嵌入从图谱中检索相似关系。
  5. 通过将每个检索到的实体和关系的 PageRank 值与其与查询的相似度分数相乘来对它们进行排序,返回前 n 个作为最终检索。
  6. 检索涉及最终检索中最多实体的社区报告。
    检索到的实体描述、关系描述和排名第一的社区报告被发送给 LLM 进行内容生成。
重要

在检索测试中使用知识图谱将显著增加接收响应的时间。

跨语言搜索

要执行跨语言搜索,请从下拉菜单中选择一个或多个目标语言。然后,系统的默认聊天模型将把您在测试文本字段中输入的查询翻译成选定的目标语言。此翻译确保跨语言的准确语义匹配,允许您检索相关结果,无论语言差异如何。

注意
  • 选择目标语言时,请确保这些语言在知识库中存在,以保证有效的搜索。
  • 如果未选择目标语言,系统将仅在您查询的语言中搜索,这可能导致错过其他语言中的相关信息。

测试文本

此字段是您输入测试查询的地方。

操作步骤

  1. 导航到知识库的检索测试页面,在测试文本中输入您的查询,然后点击测试运行测试。

  2. 如果结果不理想,请调整配置部分中列出的选项并重新运行测试。

    以下是不使用知识图谱进行的检索测试的截图。它演示了结合加权关键词相似性和加权向量余弦相似性的混合搜索。总体混合相似度分数为 28.56,计算为 25.17(术语相似度分数)x 0.7 + 36.49(向量相似度分数)x 0.3:
    Image

    以下是使用知识图谱进行的检索测试的截图。它显示知识图谱生成的分块仅使用向量相似性:
    Image

警告

如果您已调整默认设置(如关键词相似度权重或相似度阈值)以获得最佳结果,请注意这些更改不会自动保存。您必须将它们应用到聊天助手设置或检索Agent 组件设置中。

常见问题

启用使用知识图谱开关时是否使用 LLM?

是的,您的 LLM 将参与分析您的查询并从知识图谱中提取相关实体和关系。这也解释了为什么会消耗额外的令牌和时间。