跳到主要内容

本地推理最佳实践

模型选型

  • 根据显存选规模:8GB 选 7B 量化,24GB 可上 13B
  • 按任务选模型:通用对话、代码、多语言各有擅长
  • 量化等级:Q4 兼顾质量与资源,Q5 更接近原模型

部署环境

  • 使用 Docker 统一环境,避免依赖冲突
  • 固定 CUDA/cuDNN 版本,与 vLLM 等要求一致
  • 预留系统内存,避免 OOM

安全性

  • 内网部署时限制绑定地址,不暴露公网
  • 对 API 做认证与限流
  • 定期更新以修复已知漏洞

可观测性

  • 记录请求延迟、吞吐、错误率
  • 监控 GPU 显存与利用率
  • 对异常请求做采样与排查

与生态集成