使用标签集
使用标签集自动为知识库中的分块添加标签。
检索准确性是生产就绪 RAG 框架的试金石。除了自动关键词、自动问题和知识图谱等检索增强方法外,RAGFlow 引入了自动标签功能来解决语义差距。自动标签功能基于与每个分块的相似性,自动将用户定义标签集中的标签映射到知识库中的相关分块。这种自动化机制允许您将额外的领域特定知识"层"应用到现有知识库,在处理大量分块时特别有用。
要使用此功能,请确保您至少有一个正确配置的标签集,在知识库(知识库)的配置页面上指定标签集,然后重新解析文档以启动自动标签过程。在此过程中,知识库中的每个分块都与指定标签集中的每个条目进行比较,并基于相似性自动应用标签。
使用场景
自动标签适用于分块彼此过于相似,无法将目标分块与其他分块区分开来的情况。例如,当您有少量关于 iPhone 的分块,而大多数是关于 iPhone 保护壳或 iPhone 配件的分块时,在没有额外信息的情况下很难检索到关于 iPhone 的那些分块。
1. 创建标签集
您可以将标签集视为一个封闭集合,要附加到知识库(知识库)中分块的标签完全来自指定的标签集。您使用标签集来"告知"RAGFlow 哪些分块需要标记以及应用哪些标签。
准备标签表文件
标签集可以包含一个或多个 XLSX、CSV 或 TXT 格式的表文件。标签集中的每个表文件包含两列:描述和标签:
- 第一列提供第二列中列出的标签的描述。这些描述可以是示例分块或示例查询。将计算此列中每个条目与知识库中每个分块之间的相似性。
- 标签列包括与描述条目配对的标签。多个标签应使用逗号(,)分隔。
作为经验法则,请考虑在标签表中包含以下条目:
- 目标分块的描述,以及它们对应的标签。
- 使用其他方法无法检索到正确响应的用户查询,确保它们的标签与知识库中的目标分块匹配。
创建标签集
标签集不参与文档索引或检索。在配置聊天助手或 Agent 时不要指定标签集。
- 点击+创建知识库来创建知识库。
- 导航到创建的知识库的配置页面,选择标签作为默认分块方法。
- 导航到知识库页面,上传并解析您的 XLSX、CSV 或 TXT 格式的表文件。
标签云出现在标签视图部分下,表示标签集已创建:
- 点击表格标签页查看标签频率表:
2. 标记分块
创建标签集后,您可以将其应用到知识库:
- 导航到知识库(知识库)的配置页面。
- 从标签集下拉菜单中选择标签集,然后点击保存确认。
如果下拉菜单中缺少标签集,请检查它是否已正确创建或配置。
- 重新解析文档以启动自动标签过程。
在使用自动标记知识库的 AI 聊天场景中,每个查询将使用相应的标签集进行标记,带有这些标签的分块将有更高的检索机会。
3. 更新标签集
创建标签集不是一劳永逸的。通常,您可能会发现需要更新或删除现有标签或添加新条目。
- 您可以在标签频率表中更新现有标签集。
- 要添加新条目,您可以添加并解析 XLSX、CSV 或 TXT 格式的新表文件。
在标签频率表中更新标签集
- 导航到标签集的配置页面。
- 点击标签视图下的表格标签页查看标签频率表,您可以在其中更新标签名称或删除标签。
当标签集更新时,您必须重新解析知识库中的文档,以便它们的标签可以相应更新。
添加新表文件
- 导航到标签集的配置页面。
- 导航到知识库页面,上传并解析您的 XLSX、CSV 或 TXT 格式的表文件。
如果您向标签集添加新表文件,是否重新解析知识库中的文档由您自行决定。
常见问题
我可以引用多个标签集吗?
是的,您可以。通常一个标签集就足够了。使用多个标签集时,确保它们彼此独立;否则,考虑合并您的标签集。
标签集和标准知识库之间的区别?
标准知识库是一个知识库。它将被 RAGFlow 的文档引擎搜索,检索到的分块将提供给 LLM。相比之下,标签集仅用于为知识库中的分块附加标签。它不直接参与检索过程,在为聊天助手或 Agent 选择知识库时不应选择标签集。
自动标签和自动关键词之间的区别?
这两个功能都增强了 RAGFlow 中的检索。自动关键词功能依赖于 LLM 并消耗大量令牌,而自动标签功能基于向量相似性和预定义标签集。您可以将自动关键词功能中应用的关键词视为开放集合,因为它们是由 LLM 生成的。相比之下,标签集可以被视为用户定义的封闭集合,需要在上传指定格式的标签集后才能使用。