自动关键词 自动问题
使用聊天模型从知识库中的每个分块生成关键词或问题。
在选择分块方法时,您还可以启用自动关键词或自动问题生成来提高检索率。此功能使用聊天模型从每个创建的分块中生成指定数量的关键词和问题,从原始内容中生成"额外的信息层"。
警告
启用此功能会增加文档索引时间并使用额外的令牌,因为所有创建的分块都将发送给聊天模型进行关键词或问题生成。
什么是自动关键词?
自动关键词是指 RAGFlow 的自动关键词生成功能。它使用聊天模型从每个分块生成一组关键词或同义词,以纠正错误并提高检索准确性。此功能在知识库的配置页面上的页面排名下作为滑块实现。
数值:
- 0:(默认)禁用。
- 3 到 5(包含):如果您有大约 1,000 个字符的分块,建议使用。
- 30(最大值)
注意
- 如果您的分块大小增加,您可以相应地增加数值。请注意,随着数值增加,边际效益会递减。
- 自动关键词值必须是整数。如果您将其设置为非整数,比如 1.7,它将被向下舍入到最接近的整数,在这种情况下是 1。
什么是自动问题?
自动问题是 RAGFlow 的一个功能,它使用聊天模型从数据分块中自动生成问题。这些问题(例如谁、什么、为什么)也有助于纠正错误并改善用户查询的匹配。该功能通常适用于涉及产品手册或政策文档的常见问题检索场景。您可以在知识库的配置页面上的页面排名下找到此功能作为滑块。
数值:
- 0:(默认)禁用。
- 1 或 2:如果您有大约 1,000 个字符的分块,建议使用。
- 10(最大值)
注意
- 如果您的分块大小增加,您可 以相应地增加数值。请注意,随着数值增加,边际效益会递减。
- 自动问题值必须是整数。如果您将其设置为非整数,比如 1.7,它将被向下舍入到最接近的整数,在这种情况下是 1。
社区建议
自动关键词或自动问题的数值与您知识库中的分块大小密切相关。但是,如果您是此功能的新手,不确定从哪个数值开始,以下是我们从社区收集的一些数值设置。虽然它们可能不准确,但至少提供了一个起点。
<APITable>
| 使用场景或典型情况 | 文档数量/长度 | 自动关键词 (0–30) | 自动问题 (0–10) |
|---|---|---|---|
| 员工手册的内部流程指导 | 小 型,10页以下 | 0 | 0 |
| 客户服务常见问题 | 中型,10–100页 | 3–7 | 1–3 |
| 技术白皮书:开发标准、协议细节 | 大型,100页以上 | 2–4 | 1–2 |
| 合同/法规/法律条款检索 | 大型,50页以上 | 2–5 | 0–1 |
| 多仓库分层新文档+旧档案 | 很多 | 根据情况调整 | 根据情况调整 |
| 社交媒体评论池:多语言和混合拼写 | 大量短文本 | 8–12 | 0 |
| 故障排除的操作日志 | 大量短文本 | 3–6 | 0 |
| 营销资产库:多语言产品描述 | 中型 | 6–10 | 1–2 |
| 培训课程/电子书 | 大型 | 2–5 | 1–2 |
| 维护手册:设备图表+步骤 | 中型 | 3–7 | 1–2 |
</APITable>