跳到主要内容

最佳实践

选型建议

场景推荐框架
生产高吞吐vLLM
企业标准化、多模型TGI
结构化输出、多轮对话SGLang
开发/小规模、易用Ollama
无 GPU / 边缘llama.cpp

性能调优

  1. 量化:生产环境多数场景可用 4-bit 量化,显存减半以上,延迟可接受
  2. 批大小:根据显存与 QPS 调 max-num-seqs,过高可能增加延迟
  3. max_model_len:按业务设置,过长浪费显存
  4. 流式:对用户体验敏感的场景务必开启 Streaming

安全与访问控制

  • 生产环境必须加认证(API Key、OAuth 等)
  • 限流防滥用,按用户/IP 或全局限流
  • 输入长度与内容校验,防注入与超长请求
  • 敏感输出可做后处理过滤

运维与可观测性

  • 健康检查集成到负载均衡与 K8s 探针
  • 暴露 Prometheus 指标:QPS、延迟、错误率、显存
  • 日志记录 request_id、model、tokens、duration,便于排查
  • 设置告警:错误率、P99 延迟、OOM、GPU 饱和

成本优化

  • 按流量波峰波谷做弹性伸缩,避免常驻过大容量
  • 量化降低单实例显存,同卡可跑更大 batch 或更多实例
  • 冷数据可考虑按需加载或分层存储,减少常驻显存

参考