选型建议
| 场景 | 推荐框架 |
|---|
| 生产高吞吐 | vLLM |
| 企业标准化、多模型 | TGI |
| 结构化输出、多轮对话 | SGLang |
| 开发/小规模、易用 | Ollama |
| 无 GPU / 边缘 | llama.cpp |
性能调优
- 量化:生产环境多数场景可用 4-bit 量化,显存减半以上,延迟可接受
- 批大小:根据显存与 QPS 调
max-num-seqs,过高可能增加延迟
- max_model_len:按业务设置,过长浪费显存
- 流式:对用户体验敏感的场景务必开启 Streaming
安全与访问控制
- 生产环境必须加认证(API Key、OAuth 等)
- 限流防滥用,按用户/IP 或全局限流
- 输入长度与内容校验,防注入与超长请求
- 敏感输出可做后处理过滤
运维与可观测性
- 健康检查集成到负载均衡与 K8s 探针
- 暴露 Prometheus 指标:QPS、延迟、错误率、显存
- 日志记录 request_id、model、tokens、duration,便于排查
- 设置告警:错误率、P99 延迟、OOM、GPU 饱和
成本优化
- 按流量波峰波谷做弹性伸缩,避免常驻过大容量
- 量化降低单实例显存,同卡可跑更大 batch 或更多实例
- 冷数据可考虑按需加载或分层存储,减少常驻显存