跳到主要内容

模型监控与可观测性入门

什么是 AI 可观测性

AI 可观测性是指对 LLM 应用运行时的行为、性能与成本进行采集、分析与告警的能力。与传统应用监控类似，但需额外关注 Token 消耗、模型调用链路、幻觉与异常输出等 LLM 特有指标。

为什么需要 AI 可观测性

性能：延迟（TTFT、总耗时）、吞吐（QPS、TPS）直接影响用户体验
成本：Token 消耗、模型调用次数决定 API 费用
质量：错误率、幻觉、异常输出需可发现、可追溯
调试：问题定位需要完整请求链路与上下文
运营：用量分析、用户行为、功能使用情况支持产品决策

核心观测维度

1. 延迟（Latency）

TTFT（Time to First Token）：首 Token 延迟，影响用户体感
总耗时：从请求到完整响应的时间
Token 级延迟：每个 Token 的生成耗时

2. 成本（Cost）

Token 数：输入/输出 Token 统计
费用估算：按模型单价估算每次调用成本
用量趋势：按日/周/月汇总

3. 质量与错误

成功率：4xx、5xx、超时、OOM
异常输出：格式错误、截断、敏感内容
业务指标：任务完成率、用户满意度（若可采集）

4. 链路追踪（Trace）

请求 ID：贯穿整个调用链
Span：模型调用、工具调用、检索等子步骤
上下文：Prompt、响应、中间结果（脱敏后）

典型应用

推理服务：vLLM、TGI 等的 QPS、延迟、显存
RAG：检索耗时、命中率、生成质量
Agent：工具调用链、决策路径、异常行为
SaaS：多租户用量、成本分摊、限流告警

与其他技术的关系

模型部署：推理服务本身需暴露延迟、QPS 等指标，参见模型部署
AI 安全：可观测性支持异常检测与审计，参见 AI 安全
大模型评测：离线评测与线上监控互补，参见大模型评测

深入学习

想全面了解指标设计、Trace 实现、主流工具与落地实践？请查看 模型监控与可观测性深度解析。

该文档涵盖：

指标体系与采集方式
链路追踪与调试
主流工具（LangSmith、OpenTelemetry 等）
告警与看板实践

参考资源

什么是 AI 可观测性
为什么需要 AI 可观测性
核心观测维度
典型应用
与其他技术的关系
深入学习
参考资源