RAG 系统上线前必须补的 5 个数据质量检查

RAG 先死在数据，不是死在模型很多团队把精力都花在 embedding 和 rerank 上，但真正导致线上答非所问的，通常是数据质量。上线前的五个检查文档切片是否破坏语义切片长度和重叠率不应该凭感觉调。元...

RAG 先死在数据，不是死在模型

很多团队把精力都花在 embedding 和 rerank 上，但真正导致线上答非所问的，通常是数据质量。

上线前的五个检查

切片长度和重叠率不应该凭感觉调。

租户、来源、时间、权限边界如果没进索引，召回就无法治理。

你需要知道用户问了什么、召回了什么、最终引用了什么。

不要只测 FAQ，要测真实工单、失败 case 和边界问题。

没有来源的回答几乎不可运营。

先把数据做干净，再谈模型升级。