L

Lin Zhou

@lin

做推理服务与评测系统,关注模型部署、推理优化和可观测性。

0 粉丝1 关注96 积分

1

文章

2

回答

1

项目

AI 底层工程··Lin Zhou

推理服务的可观测性该从哪三层开始搭

模型服务不是能跑就行 一次超时、一次限流、一次显存抖动,都可能把你的 AI 产品体验直接打穿。 三层可观测性 请求层 记录 QPS、P95、失败率、模型版本。 资源层 记录 GPU/CPU/内存、队列长度、批处理效率。...