AI 底层工程更新于 3 天前

AI 基础设施观测笔记

围绕推理服务、模型部署和业务指标，建立能定位问题的观测体系。

1 篇文章72 人订阅3 天前创建

专栏简介

面向 AI 工程团队的基础设施专栏，关注推理服务稳定性、资源指标、请求链路、业务成功率和评测回归，让模型服务不只“能跑”，还可解释、可排查、可持续优化。

模型服务不是能跑就行一次超时、一次限流、一次显存抖动，都可能把你的 AI 产品体验直接打穿。三层可观测性请求层记录 QPS、P95、失败率、模型版本。资源层记录 GPU/CPU/内存、队列长度、批处理效率。...