专题内容
这里直接展示与该专题相关的真实社区内容,方便你顺着内容继续学。
文章
查看全部推理服务的可观测性该从哪三层开始搭
模型服务不是能跑就行 一次超时、一次限流、一次显存抖动,都可能把你的 AI 产品体验直接打穿。 三层可观测性 请求层 记录 QPS、P95、失败率、模型版本。 资源层 记录 GPU/CPU/内存、队列长度、批处理效率。...
问答
查看全部MCP Server 做多租户隔离时,权限应该放在哪一层?
如果一个 MCP Server 同时服务多个团队,权限判断应该放在工具函数内部、网关层,还是 session context?