跳到主要内容

从零到一

本路径帮助你在约 1 周内建立起 LLM 应用的基础可观测能力。

阶段一：最小可行（1–2 天）

选择方式：LangChain 用户用 LangSmith；其他用结构化日志或 OpenTelemetry
埋点：在 LLM 调用处记录 model、tokens、duration、status
查看：确认 Trace/日志可被检索与聚合

阶段二：指标与看板（2–3 天）

指标：将延迟、QPS、Token 等接入 Prometheus 或现有监控
看板：Grafana 或云厂商控制台建基础 Dashboard
告警：设置错误率、P99 延迟等基础告警

阶段三：成本与多租户（2 天）

成本：按 Token 与模型单价计算单次调用成本
聚合：按用户/租户/项目聚合用量
限流：可选实现用量限制与超额告警

阶段四：完善与优化（持续）

Trace 优化：采样、异步、敏感信息脱敏
告警调优：减少噪音，提升有效性
与业务结合：将可观测性纳入发布与运维流程

检查清单

LLM 调用有 trace_id、duration、tokens
可在控制台或日志中按请求查链路
有基础 Dashboard 与告警
成本可按维度聚合（若多租户）

扩展学习

模型部署 — 推理服务本身的监控
AI 安全 — 通过监控发现异常与审计

阶段一：最小可行（1–2 天）
阶段二：指标与看板（2–3 天）
阶段三：成本与多租户（2 天）
阶段四：完善与优化（持续）
检查清单
扩展学习