从零到一
本路径帮助你在约 1 周内建立起 LLM 应用的基础可观测能力。
阶段一:最小可行(1–2 天)
- 选择方式:LangChain 用户用 LangSmith;其他用结构化日志或 OpenTelemetry
- 埋点:在 LLM 调用处记录 model、tokens、duration、status
- 查看:确认 Trace/日志可被检索与聚合
阶段二:指标与看板(2–3 天)
- 指标:将延迟、QPS、Token 等接入 Prometheus 或现有监控
- 看板:Grafana 或云厂商控制台建基础 Dashboard
- 告警:设置错误率、P99 延迟等基础告警
阶段三:成本与多租户(2 天)
- 成本:按 Token 与模型单价计算单次调用成本
- 聚合:按用户/租户/项目聚合用量
- 限流:可选实现用量限制与超额告警
阶段四:完善与优化(持续)
- Trace 优化:采样、异步、敏感信息脱敏
- 告警调优:减少噪音,提升有效性
- 与业务结合:将可观测性纳入发布与运维流程
检查清单
- LLM 调用有 trace_id、duration、tokens
- 可在控制台或日志中按请求查链路
- 有基础 Dashboard 与告警
- 成本可按维度聚合(若多租户)