跳到主要内容

最佳实践

指标设计

  • 核心指标:延迟(TTFT、总耗时)、QPS、错误率、Token 消耗
  • 按维度聚合:model、user、tenant、feature
  • 避免过高基数:userId 等做采样或聚合,防止指标爆炸

Trace 与隐私

  • 不记录完整 Prompt/Response 到可持久化存储(除非有合规允许)
  • 可记录哈希、长度、抽样摘要
  • 脱敏后再输出到日志与 Trace

告警

  • 避免告警疲劳:阈值合理,避免过于敏感
  • 分层:P0 立刻处理,P1 当日,P2 周内
  • 与 On-call、工单系统集成

成本监控

  • 建立 Token 预算与告警
  • 异常用户/租户检测(防滥用)
  • 与计费、配额系统打通

参考