部署学习专题

推理部署与观测

从推理服务、性能回退、资源指标到业务可观测性,补齐 AI 底层工程。

适合做模型部署、推理优化、服务治理和性能分析的人

你会学到什么

先把请求、资源和业务指标分层

再建立回退、限流和失败追踪

最后把线上问题转化成可复用经验

建议学习顺序
Step 1

先看推理部署文章,补齐基础指标体系

Step 2

再看问答区的线上排障经验

Step 3

最后看项目案例,理解观测平台如何落地

专题内容

这里直接展示与该专题相关的真实社区内容,方便你顺着内容继续学。

AI 底层工程··Lin Zhou

推理服务的可观测性该从哪三层开始搭

模型服务不是能跑就行 一次超时、一次限流、一次显存抖动,都可能把你的 AI 产品体验直接打穿。 三层可观测性 请求层 记录 QPS、P95、失败率、模型版本。 资源层 记录 GPU/CPU/内存、队列长度、批处理效率。...

问答··Ada Chen

MCP Server 做多租户隔离时,权限应该放在哪一层?

如果一个 MCP Server 同时服务多个团队,权限判断应该放在工具函数内部、网关层,还是 session context?

1 回答1
项目··Lin Zhou

Inference Radar

推理服务观测平台,聚合请求日志、资源指标和业务异常,帮助定位性能回退。