模型监控与可观测性深度解析
引言
LLM 应用的可观测性关乎性能、成本、质量与运维效率。本文从指标体系、Trace、工具选型到告警看板,系统解析 AI 可观测性的工程实践。
一、指标体系
性能指标
| 指标 | 说明 | 典型目标 |
|---|---|---|
| TTFT | 首 Token 延迟 | < 1s(流式) |
| 总延迟 | 请求到完整响应 | 按业务设定 |
| QPS | 每秒请求数 | 按容量规划 |
| TPS | 每秒生成 Token 数 | 与吞吐相关 |
| 错误率 | 4xx/5xx、超时占比 | < 0.1% |
成本指标
| 指标 | 说明 |
|---|---|
| Input Tokens | 每请求/每用户/每租户 |
| Output Tokens | 同上 |
| 费用估算 | 按模型单价 × Token 数 |
| 用量趋势 | 日/周/月聚合 |
质量指标
| 指标 | 说明 |
|---|---|
| 成功率 | 正常完成占比 |
| 格式错误 | JSON 解析失败、截断等 |
| 业务指标 | 任务完成率、反馈评分(若可采集) |
| 幻觉/事实性 | 可通过采样或评测 pipeline 评估 |
二、链路追踪(Trace)
典型 Span 结构
Request (trace_id)
├── LLM Call (span: chat_completion)
│ ├── Prompt build
│ └── Model inference
├── RAG Retrieve (span: retrieval)
│ ├── Embedding
│ └── Vector search
├── Tool Call (span: tool_xxx)
└── LLM Call (span: chat_completion, follow-up)
采集内容(脱敏后)
- Input:用户问题、系统提示(可哈希或截断)
- Output:模型响应、工具返回
- Metadata:模型名、Temperature、Max Tokens
- Timing:各 Span 起止时间
用途
- 调试:快速定位慢在哪个环节
- 审计:合规、安全事件追溯
- 分析:高耗时请求模式、异常输入模式
三、主流工具
LangSmith
- 定位:LangChain 官方可观测性平台
- 能力:Trace、评估、数据集、监控
- 集成:LangChain 原生支持,设置
LANGCHAIN_TRACING_V2即可 - 适用:LangChain 技术栈
OpenTelemetry
- 定位:通用可观测性标准
- 能力:Trace、Metrics、Logs,可对接多种后端
- 集成:通过 SDK 插桩,兼容 Jaeger、Zipkin、Prometheus 等
- 适用:自建、多云、已有监控体系
Phoenix (Arize)
- 定位:LLM 专项可观测性
- 能力:Trace、评估、数据质量、漂移检测
- 集成:与 LangChain、LlamaIndex 等集成
- 适用:需深入分析 Prompt、输出质量的场景
自建
- 日志:结构化 JSON 日志,含 trace_id、span、timing
- 指标:Prometheus + Grafana
- Trace:Jaeger 或 Tempo
- 适用:完全私有化、深度自定义
四、告警与看板
告警规则示例
- TTFT P99 > 2s
- 错误率 > 1%
- QPS 突增 > 2x(可能异常流量)
- 单用户/租户 Token 消耗异常(可能滥用)
看板内容
- 实时:QPS、错误率、P50/P99 延迟
- 趋势:每日 Token 消耗、成本、用量排行
- 质量:成功率、异常请求样例
- 调试:按 trace_id 查询完整链路
五、与推理、安全的协同
- 推理服务:vLLM、TGI 等暴露 Prometheus 指标,可接入统一监控
- AI 安全:Trace 支持审计,异常模式可触发告警
- 成本优化:用量与成本可视化支持模型选型、限流策略调整
总结
AI 可观测性是 LLM 应用稳定运行的基础设施。建立指标、Trace、告警与看板,结合 LangSmith、OpenTelemetry、Phoenix 等工具,可系统提升运维效率与问题定位能力。