跳到主要内容

模型监控与可观测性入门

什么是 AI 可观测性

AI 可观测性是指对 LLM 应用运行时的行为、性能与成本进行采集、分析与告警的能力。与传统应用监控类似,但需额外关注 Token 消耗、模型调用链路、幻觉与异常输出等 LLM 特有指标。

为什么需要 AI 可观测性

  1. 性能:延迟(TTFT、总耗时)、吞吐(QPS、TPS)直接影响用户体验
  2. 成本:Token 消耗、模型调用次数决定 API 费用
  3. 质量:错误率、幻觉、异常输出需可发现、可追溯
  4. 调试:问题定位需要完整请求链路与上下文
  5. 运营:用量分析、用户行为、功能使用情况支持产品决策

核心观测维度

1. 延迟(Latency)

  • TTFT(Time to First Token):首 Token 延迟,影响用户体感
  • 总耗时:从请求到完整响应的时间
  • Token 级延迟:每个 Token 的生成耗时

2. 成本(Cost)

  • Token 数:输入/输出 Token 统计
  • 费用估算:按模型单价估算每次调用成本
  • 用量趋势:按日/周/月汇总

3. 质量与错误

  • 成功率:4xx、5xx、超时、OOM
  • 异常输出:格式错误、截断、敏感内容
  • 业务指标:任务完成率、用户满意度(若可采集)

4. 链路追踪(Trace)

  • 请求 ID:贯穿整个调用链
  • Span:模型调用、工具调用、检索等子步骤
  • 上下文:Prompt、响应、中间结果(脱敏后)

典型应用

  • 推理服务:vLLM、TGI 等的 QPS、延迟、显存
  • RAG:检索耗时、命中率、生成质量
  • Agent:工具调用链、决策路径、异常行为
  • SaaS:多租户用量、成本分摊、限流告警

与其他技术的关系

  • 模型部署:推理服务本身需暴露延迟、QPS 等指标,参见 模型部署
  • AI 安全:可观测性支持异常检测与审计,参见 AI 安全
  • 大模型评测:离线评测与线上监控互补,参见 大模型评测

深入学习

想全面了解指标设计、Trace 实现、主流工具与落地实践?请查看 模型监控与可观测性深度解析

该文档涵盖:

  • 指标体系与采集方式
  • 链路追踪与调试
  • 主流工具(LangSmith、OpenTelemetry 等)
  • 告警与看板实践

参考资源