跳到主要内容

模型监控与可观测性深度解析

引言

LLM 应用的可观测性关乎性能、成本、质量与运维效率。本文从指标体系、Trace、工具选型到告警看板,系统解析 AI 可观测性的工程实践。

一、指标体系

性能指标

指标说明典型目标
TTFT首 Token 延迟< 1s(流式)
总延迟请求到完整响应按业务设定
QPS每秒请求数按容量规划
TPS每秒生成 Token 数与吞吐相关
错误率4xx/5xx、超时占比< 0.1%

成本指标

指标说明
Input Tokens每请求/每用户/每租户
Output Tokens同上
费用估算按模型单价 × Token 数
用量趋势日/周/月聚合

质量指标

指标说明
成功率正常完成占比
格式错误JSON 解析失败、截断等
业务指标任务完成率、反馈评分(若可采集)
幻觉/事实性可通过采样或评测 pipeline 评估

二、链路追踪(Trace)

典型 Span 结构

Request (trace_id)
├── LLM Call (span: chat_completion)
│ ├── Prompt build
│ └── Model inference
├── RAG Retrieve (span: retrieval)
│ ├── Embedding
│ └── Vector search
├── Tool Call (span: tool_xxx)
└── LLM Call (span: chat_completion, follow-up)

采集内容(脱敏后)

  • Input:用户问题、系统提示(可哈希或截断)
  • Output:模型响应、工具返回
  • Metadata:模型名、Temperature、Max Tokens
  • Timing:各 Span 起止时间

用途

  • 调试:快速定位慢在哪个环节
  • 审计:合规、安全事件追溯
  • 分析:高耗时请求模式、异常输入模式

三、主流工具

LangSmith

  • 定位:LangChain 官方可观测性平台
  • 能力:Trace、评估、数据集、监控
  • 集成:LangChain 原生支持,设置 LANGCHAIN_TRACING_V2 即可
  • 适用:LangChain 技术栈

OpenTelemetry

  • 定位:通用可观测性标准
  • 能力:Trace、Metrics、Logs,可对接多种后端
  • 集成:通过 SDK 插桩,兼容 Jaeger、Zipkin、Prometheus 等
  • 适用:自建、多云、已有监控体系

Phoenix (Arize)

  • 定位:LLM 专项可观测性
  • 能力:Trace、评估、数据质量、漂移检测
  • 集成:与 LangChain、LlamaIndex 等集成
  • 适用:需深入分析 Prompt、输出质量的场景

自建

  • 日志:结构化 JSON 日志,含 trace_id、span、timing
  • 指标:Prometheus + Grafana
  • Trace:Jaeger 或 Tempo
  • 适用:完全私有化、深度自定义

四、告警与看板

告警规则示例

  • TTFT P99 > 2s
  • 错误率 > 1%
  • QPS 突增 > 2x(可能异常流量)
  • 单用户/租户 Token 消耗异常(可能滥用)

看板内容

  • 实时:QPS、错误率、P50/P99 延迟
  • 趋势:每日 Token 消耗、成本、用量排行
  • 质量:成功率、异常请求样例
  • 调试:按 trace_id 查询完整链路

五、与推理、安全的协同

  • 推理服务:vLLM、TGI 等暴露 Prometheus 指标,可接入统一监控
  • AI 安全:Trace 支持审计,异常模式可触发告警
  • 成本优化:用量与成本可视化支持模型选型、限流策略调整

总结

AI 可观测性是 LLM 应用稳定运行的基础设施。建立指标、Trace、告警与看板,结合 LangSmith、OpenTelemetry、Phoenix 等工具,可系统提升运维效率与问题定位能力。