Skip to main content
Version: DEV

使用标签集

使用标签集自动为知识库中的分块添加标签。


检索准确性是生产就绪 RAG 框架的试金石。除了自动关键词、自动问题和知识图谱等检索增强方法外,RAGFlow 引入了自动标签功能来解决语义差距。自动标签功能基于与每个分块的相似性,自动将用户定义标签集中的标签映射到知识库中的相关分块。这种自动化机制允许您将额外的领域特定知识"层"应用到现有知识库,在处理大量分块时特别有用。

要使用此功能,请确保您至少有一个正确配置的标签集,在知识库(知识库)的配置页面上指定标签集,然后重新解析文档以启动自动标签过程。在此过程中,知识库中的每个分块都与指定标签集中的每个条目进行比较,并基于相似性自动应用标签。

使用场景

自动标签适用于分块彼此过于相似,无法将目标分块与其他分块区分开来的情况。例如,当您有少量关于 iPhone 的分块,而大多数是关于 iPhone 保护壳或 iPhone 配件的分块时,在没有额外信息的情况下很难检索到关于 iPhone 的那些分块。

1. 创建标签集

您可以将标签集视为一个封闭集合,要附加到知识库(知识库)中分块的标签完全来自指定的标签集。您使用标签集来"告知"RAGFlow 哪些分块需要标记以及应用哪些标签。

准备标签表文件

标签集可以包含一个或多个 XLSX、CSV 或 TXT 格式的表文件。标签集中的每个表文件包含两列:描述标签

  • 第一列提供第二列中列出的标签的描述。这些描述可以是示例分块或示例查询。将计算此列中每个条目与知识库中每个分块之间的相似性。
  • 标签列包括与描述条目配对的标签。多个标签应使用逗号(,)分隔。
注意

作为经验法则,请考虑在标签表中包含以下条目:

  • 目标分块的描述,以及它们对应的标签。
  • 使用其他方法无法检索到正确响应的用户查询,确保它们的标签与知识库中的目标分块匹配。

创建标签集

重要

标签集参与文档索引或检索。在配置聊天助手或 Agent 时不要指定标签集。

  1. 点击+创建知识库来创建知识库。
  2. 导航到创建的知识库的配置页面,选择标签作为默认分块方法。
  3. 导航到知识库页面,上传并解析您的 XLSX、CSV 或 TXT 格式的表文件。
    标签云出现在标签视图部分下,表示标签集已创建:
    Image
  4. 点击表格标签页查看标签频率表:
    Image

2. 标记分块

创建标签集后,您可以将其应用到知识库:

  1. 导航到知识库(知识库)的配置页面。
  2. 标签集下拉菜单中选择标签集,然后点击保存确认。
注意

如果下拉菜单中缺少标签集,请检查它是否已正确创建或配置。

  1. 重新解析文档以启动自动标签过程。
    在使用自动标记知识库的 AI 聊天场景中,每个查询将使用相应的标签集进行标记,带有这些标签的分块将有更高的检索机会。

3. 更新标签集

创建标签集不是一劳永逸的。通常,您可能会发现需要更新或删除现有标签或添加新条目。

  • 您可以在标签频率表中更新现有标签集。
  • 要添加新条目,您可以添加并解析 XLSX、CSV 或 TXT 格式的新表文件。

在标签频率表中更新标签集

  1. 导航到标签集的配置页面。
  2. 点击标签视图下的表格标签页查看标签频率表,您可以在其中更新标签名称或删除标签。
重要

当标签集更新时,您必须重新解析知识库中的文档,以便它们的标签可以相应更新。

添加新表文件

  1. 导航到标签集的配置页面。
  2. 导航到知识库页面,上传并解析您的 XLSX、CSV 或 TXT 格式的表文件。
重要

如果您向标签集添加新表文件,是否重新解析知识库中的文档由您自行决定。

常见问题

我可以引用多个标签集吗?

是的,您可以。通常一个标签集就足够了。使用多个标签集时,确保它们彼此独立;否则,考虑合并您的标签集。

标签集和标准知识库之间的区别?

标准知识库是一个知识库。它将被 RAGFlow 的文档引擎搜索,检索到的分块将提供给 LLM。相比之下,标签集仅用于为知识库中的分块附加标签。它不直接参与检索过程,在为聊天助手或 Agent 选择知识库时不应选择标签集。

自动标签和自动关键词之间的区别?

这两个功能都增强了 RAGFlow 中的检索。自动关键词功能依赖于 LLM 并消耗大量令牌,而自动标签功能基于向量相似性和预定义标签集。您可以将自动关键词功能中应用的关键词视为开放集合,因为它们是由 LLM 生成的。相比之下,标签集可以被视为用户定义的封闭集合,需要在上传指定格式的标签集后才能使用。