跳到主要内容

本地推理最佳实践

模型选型

根据显存选规模：8GB 选 7B 量化，24GB 可上 13B
按任务选模型：通用对话、代码、多语言各有擅长
量化等级：Q4 兼顾质量与资源，Q5 更接近原模型

部署环境

使用 Docker 统一环境，避免依赖冲突
固定 CUDA/cuDNN 版本，与 vLLM 等要求一致
预留系统内存，避免 OOM

安全性

内网部署时限制绑定地址，不暴露公网
对 API 做认证与限流
定期更新以修复已知漏洞

可观测性

记录请求延迟、吞吐、错误率
监控 GPU 显存与利用率
对异常请求做采样与排查

与生态集成

本地推理 + RAG + Embedding 构成完整知识库方案
配合 Agent 实现私有化智能体
与 LangChain、LlamaIndex 对接构建应用

模型选型
部署环境
安全性
可观测性
与生态集成