RAGMila Xu

RAG 系统上线前必须补的 5 个数据质量检查

RAG 先死在数据,不是死在模型 很多团队把精力都花在 embedding 和 rerank 上,但真正导致线上答非所问的,通常是数据质量。 上线前的五个检查 文档切片是否破坏语义 切片长度和重叠率不应该凭感觉调。 元...

RAG 先死在数据,不是死在模型

很多团队把精力都花在 embedding 和 rerank 上,但真正导致线上答非所问的,通常是数据质量。

上线前的五个检查

文档切片是否破坏语义

切片长度和重叠率不应该凭感觉调。

元数据是否足够过滤

租户、来源、时间、权限边界如果没进索引,召回就无法治理。

检索日志是否完整

你需要知道用户问了什么、召回了什么、最终引用了什么。

评测集是否覆盖真实问题

不要只测 FAQ,要测真实工单、失败 case 和边界问题。

回答是否引用来源

没有来源的回答几乎不可运营。

最后

先把数据做干净,再谈模型升级。

评论

0
登录后可以参与评论和讨论。
💬

还没有评论

欢迎留下第一条评论,帮助这篇内容更快形成讨论。