#评测
标签与该标签相关的文章、问题和项目。
2 篇文章1 个问题1 个项目
文章
查看全部推理服务的可观测性该从哪三层开始搭
模型服务不是能跑就行 一次超时、一次限流、一次显存抖动,都可能把你的 AI 产品体验直接打穿。 三层可观测性 请求层 记录 QPS、P95、失败率、模型版本。 资源层 记录 GPU/CPU/内存、队列长度、批处理效率。...
问题
查看全部RAG 检索结果很多,但回答还是经常幻觉,先查哪里?
召回看起来没问题,topK 里也经常能看到正确文档,但模型最终回答还是会编。请问大家通常先排查 prompt、引用格式,还是重排策略?