RAG 先死在数据,不是死在模型
很多团队把精力都花在 embedding 和 rerank 上,但真正导致线上答非所问的,通常是数据质量。
上线前的五个检查
文档切片是否破坏语义
切片长度和重叠率不应该凭感觉调。
元数据是否足够过滤
租户、来源、时间、权限边界如果没进索引,召回就无法治理。
检索日志是否完整
你需要知道用户问了什么、召回了什么、最终引用了什么。
评测集是否覆盖真实问题
不要只测 FAQ,要测真实工单、失败 case 和边界问题。
回答是否引用来源
没有来源的回答几乎不可运营。
最后
先把数据做干净,再谈模型升级。