跳到主要内容

最佳实践

选型建议

场景	推荐框架
生产高吞吐	vLLM
企业标准化、多模型	TGI
结构化输出、多轮对话	SGLang
开发/小规模、易用	Ollama
无 GPU / 边缘	llama.cpp

性能调优

量化：生产环境多数场景可用 4-bit 量化，显存减半以上，延迟可接受
批大小：根据显存与 QPS 调 max-num-seqs，过高可能增加延迟
max_model_len：按业务设置，过长浪费显存
流式：对用户体验敏感的场景务必开启 Streaming

安全与访问控制

生产环境必须加认证（API Key、OAuth 等）
限流防滥用，按用户/IP 或全局限流
输入长度与内容校验，防注入与超长请求
敏感输出可做后处理过滤

运维与可观测性

健康检查集成到负载均衡与 K8s 探针
暴露 Prometheus 指标：QPS、延迟、错误率、显存
日志记录 request_id、model、tokens、duration，便于排查
设置告警：错误率、P99 延迟、OOM、GPU 饱和

成本优化

按流量波峰波谷做弹性伸缩，避免常驻过大容量
量化降低单实例显存，同卡可跑更大 batch 或更多实例
冷数据可考虑按需加载或分层存储，减少常驻显存

参考

选型建议
性能调优
安全与访问控制
运维与可观测性
成本优化
参考