模型监控与可观测性入门
什么是 AI 可观测性
AI 可观测性是指对 LLM 应用运行时的行为、性能与成本进行采集、分析与告警的能力。与传统应用监控类似,但需额外关注 Token 消耗、模型调用链路、幻觉与异常输出等 LLM 特有指标。
为什么需要 AI 可观测性
- 性能:延迟(TTFT、总耗时)、吞吐(QPS、TPS)直接影响用户体验
- 成本:Token 消耗、模型调用次数决定 API 费用
- 质量:错误率、幻觉、异常输出需可发现、可追溯
- 调试:问题定位需要完整请求链路与上下文
- 运营:用量分析、用户行为、功能使用情况支持产品决策
核心观测维度
1. 延迟(Latency)
- TTFT(Time to First Token):首 Token 延迟,影响用户体感
- 总耗时:从请求到完整响应的时间
- Token 级延迟:每个 Token 的生成耗时
2. 成本(Cost)
- Token 数:输入/输出 Token 统计
- 费用估算:按模型单价估算每次调用成本
- 用量趋势:按日/周/月汇总
3. 质量与错误
- 成功率:4xx、5xx、超时、OOM
- 异常输出:格式错误、截断、敏感内容
- 业务指标:任务完成率、用户满意度(若可采集)
4. 链路追踪(Trace)
- 请求 ID:贯穿整个调用链
- Span:模型调用、工具调用、检索等子步骤
- 上下文:Prompt、响应、中间结果(脱敏后)
典型应用
- 推理服务:vLLM、TGI 等的 QPS、延迟、显存
- RAG:检索耗时、命中率、生成质量
- Agent:工具调用链、决策路径、异常行为
- SaaS:多租户用量、成本分摊、限流告警
与其他技术的关系
深入学习
想全面了解指标设计、Trace 实现、主流工具与落地实践?请查看 模型监控与可观测性深度解析。
该文档涵盖:
- 指标体系与采集方式
- 链路追踪与调试
- 主流工具(LangSmith、OpenTelemetry 等)
- 告警与看板实践