本地大模型推理入门
什么是本地推理
本地推理指在 自有硬件(个人电脑、服务器、GPU 工作站)上部署和运行大语言模型,无需依赖云端 API。常见的本地推理方案包括 Ollama、vLLM、LM Studio、llama.cpp 等。
为什么选择本地推理
- 数据隐私:数据不出本地,适合敏感场景
- 成本可控:无按量计费,适合高频调用
- 离线可用:内网或断网环境仍可工作
- 可定制:支持微调、量化、私有部署
- 学习与实验:便于理解模型行为与调优
主流方案概览
| 方案 | 特点 | 适用场景 |
|---|---|---|
| Ollama | 安装简单,开箱即用,多平台 | 个人开发、快速原型 |
| vLLM | 高吞吐、生产级、PagedAttention | 生产部署、多并发 |
| LM Studio | 图形界面,模型管理方便 | Windows/Mac 桌面用户 |
| llama.cpp | 轻量、CPU 友好、量化支持强 | 无 GPU 或低配环境 |
| TGI | Hugging Face 官方,支持多框架 | 企业级、多模型 |
核心概念
量化
通过 INT4/INT8 等精度降低模型大小和显存占用,使大模型在消费级显卡上运行。常见格式:GGUF、AWQ、GPTQ。
推理加速
- PagedAttention:类似操作系统虚拟内存,提高显存利用
- 批处理:合并请求提高吞吐
- KV Cache 优化:减少重复计算
GPU 与显存
- 7B 模型 FP16 约需 14GB 显存
- 7B 模型 4-bit 量化约需 4–6GB
- 可按显存选择模型规模与量化程度
典型应用
- 本地 RAG:配合向量库做私有知识库问答
- Agent 开发:为 LangChain、LlamaIndex 提供本地 LLM
- 边缘部署:IoT、离线场景
- 成本敏感业务:客服、内部工具等高频调用