最佳实践
指标设计
- 核心指标:延迟(TTFT、总耗时)、QPS、错误率、Token 消耗
- 按维度聚合:model、user、tenant、feature
- 避免过高基数:userId 等做采样或聚合,防止指标爆炸
Trace 与隐私
- 不记录完整 Prompt/Response 到可持久化存储(除非有合规允许)
- 可记录哈希、长度、抽样摘要
- 脱敏后再输出到日志与 Trace
告警
- 避免告警疲劳:阈值合理,避免过于敏感
- 分层:P0 立刻处理,P1 当日,P2 周内
- 与 On-call、工单系统集成
成本监控
- 建立 Token 预算与告警
- 异常用户/租户检测(防滥用)
- 与计费、配额系统打通