本地推理最佳实践
模型选型
- 根据显存选规模:8GB 选 7B 量化,24GB 可 上 13B
- 按任务选模型:通用对话、代码、多语言各有擅长
- 量化等级:Q4 兼顾质量与资源,Q5 更接近原模型
部署环境
- 使用 Docker 统一环境,避免依赖冲突
- 固定 CUDA/cuDNN 版本,与 vLLM 等要求一致
- 预留系统内存,避免 OOM
安全性
- 内网部署时限制绑定地址,不暴露公网
- 对 API 做认证与限流
- 定期更新以修复已知漏洞
可观测性
- 记录请求延迟、吞吐、错误率
- 监控 GPU 显存与利用率
- 对异常请求做采样与排查
与生态集成
- 本地推理 + RAG + Embedding 构成完整知识库方案
- 配合 Agent 实现私有化智能体
- 与 LangChain、LlamaIndex 对接构建应用