模型监控与可观测性深度解析

引言

LLM 应用的可观测性关乎性能、成本、质量与运维效率。本文从指标体系、Trace、工具选型到告警看板，系统解析 AI 可观测性的工程实践。

一、指标体系

性能指标

指标	说明	典型目标
TTFT	首 Token 延迟	< 1s（流式）
总延迟	请求到完整响应	按业务设定
QPS	每秒请求数	按容量规划
TPS	每秒生成 Token 数	与吞吐相关
错误率	4xx/5xx、超时占比	< 0.1%

成本指标

指标	说明
Input Tokens	每请求/每用户/每租户
Output Tokens	同上
费用估算	按模型单价 × Token 数
用量趋势	日/周/月聚合

质量指标

指标	说明
成功率	正常完成占比
格式错误	JSON 解析失败、截断等
业务指标	任务完成率、反馈评分（若可采集）
幻觉/事实性	可通过采样或评测 pipeline 评估

二、链路追踪（Trace）

典型 Span 结构

Request (trace_id)
├── LLM Call (span: chat_completion)
│   ├── Prompt build
│   └── Model inference
├── RAG Retrieve (span: retrieval)
│   ├── Embedding
│   └── Vector search
├── Tool Call (span: tool_xxx)
└── LLM Call (span: chat_completion, follow-up)

采集内容（脱敏后）

Input：用户问题、系统提示（可哈希或截断）
Output：模型响应、工具返回
Metadata：模型名、Temperature、Max Tokens
Timing：各 Span 起止时间

用途

调试：快速定位慢在哪个环节
审计：合规、安全事件追溯
分析：高耗时请求模式、异常输入模式

三、主流工具

LangSmith

定位：LangChain 官方可观测性平台
能力：Trace、评估、数据集、监控
集成：LangChain 原生支持，设置 LANGCHAIN_TRACING_V2 即可
适用：LangChain 技术栈

OpenTelemetry

定位：通用可观测性标准
能力：Trace、Metrics、Logs，可对接多种后端
集成：通过 SDK 插桩，兼容 Jaeger、Zipkin、Prometheus 等
适用：自建、多云、已有监控体系

Phoenix (Arize)

定位：LLM 专项可观测性
能力：Trace、评估、数据质量、漂移检测
集成：与 LangChain、LlamaIndex 等集成
适用：需深入分析 Prompt、输出质量的场景

自建

日志：结构化 JSON 日志，含 trace_id、span、timing
指标：Prometheus + Grafana
Trace：Jaeger 或 Tempo
适用：完全私有化、深度自定义

四、告警与看板

告警规则示例

TTFT P99 > 2s
错误率 > 1%
QPS 突增 > 2x（可能异常流量）
单用户/租户 Token 消耗异常（可能滥用）

看板内容

实时：QPS、错误率、P50/P99 延迟
趋势：每日 Token 消耗、成本、用量排行
质量：成功率、异常请求样例
调试：按 trace_id 查询完整链路

五、与推理、安全的协同

推理服务：vLLM、TGI 等暴露 Prometheus 指标，可接入统一监控
AI 安全：Trace 支持审计，异常模式可触发告警
成本优化：用量与成本可视化支持模型选型、限流策略调整

总结

AI 可观测性是 LLM 应用稳定运行的基础设施。建立指标、Trace、告警与看板，结合 LangSmith、OpenTelemetry、Phoenix 等工具，可系统提升运维效率与问题定位能力。

引言​

一、指标体系​

性能指标​

成本指标​

质量指标​

二、链路追踪（Trace）​

典型 Span 结构​

采集内容（脱敏后）​

用途​

三、主流工具​

LangSmith​

OpenTelemetry​

Phoenix (Arize)​

自建​

四、告警与看板​

告警规则示例​

看板内容​

五、与推理、安全的协同​

总结​

引言

一、指标体系

性能指标

成本指标

质量指标

二、链路追踪（Trace）

典型 Span 结构

采集内容（脱敏后）

用途

三、主流工具

LangSmith

OpenTelemetry

Phoenix (Arize)

自建

四、告警与看板

告警规则示例

看板内容

五、与推理、安全的协同

总结