跳到主要内容

从零到一

本路径帮助你在约 1 周内建立起 LLM 应用的基础可观测能力。

阶段一:最小可行(1–2 天)

  1. 选择方式:LangChain 用户用 LangSmith;其他用结构化日志或 OpenTelemetry
  2. 埋点:在 LLM 调用处记录 model、tokens、duration、status
  3. 查看:确认 Trace/日志可被检索与聚合

阶段二:指标与看板(2–3 天)

  1. 指标:将延迟、QPS、Token 等接入 Prometheus 或现有监控
  2. 看板:Grafana 或云厂商控制台建基础 Dashboard
  3. 告警:设置错误率、P99 延迟等基础告警

阶段三:成本与多租户(2 天)

  1. 成本:按 Token 与模型单价计算单次调用成本
  2. 聚合:按用户/租户/项目聚合用量
  3. 限流:可选实现用量限制与超额告警

阶段四:完善与优化(持续)

  1. Trace 优化:采样、异步、敏感信息脱敏
  2. 告警调优:减少噪音,提升有效性
  3. 与业务结合:将可观测性纳入发布与运维流程

检查清单

  • LLM 调用有 trace_id、duration、tokens
  • 可在控制台或日志中按请求查链路
  • 有基础 Dashboard 与告警
  • 成本可按维度聚合(若多租户)

扩展学习