跳到主要内容

本地大模型推理入门

什么是本地推理

本地推理指在自有硬件（个人电脑、服务器、GPU 工作站）上部署和运行大语言模型，无需依赖云端 API。常见的本地推理方案包括 Ollama、vLLM、LM Studio、llama.cpp 等。

为什么选择本地推理

数据隐私：数据不出本地，适合敏感场景
成本可控：无按量计费，适合高频调用
离线可用：内网或断网环境仍可工作
可定制：支持微调、量化、私有部署
学习与实验：便于理解模型行为与调优

主流方案概览

方案	特点	适用场景
Ollama	安装简单，开箱即用，多平台	个人开发、快速原型
vLLM	高吞吐、生产级、PagedAttention	生产部署、多并发
LM Studio	图形界面，模型管理方便	Windows/Mac 桌面用户
llama.cpp	轻量、CPU 友好、量化支持强	无 GPU 或低配环境
TGI	Hugging Face 官方，支持多框架	企业级、多模型

核心概念

量化

通过 INT4/INT8 等精度降低模型大小和显存占用，使大模型在消费级显卡上运行。常见格式：GGUF、AWQ、GPTQ。

推理加速

PagedAttention：类似操作系统虚拟内存，提高显存利用
批处理：合并请求提高吞吐
KV Cache 优化：减少重复计算

GPU 与显存

7B 模型 FP16 约需 14GB 显存
7B 模型 4-bit 量化约需 4–6GB
可按显存选择模型规模与量化程度

典型应用

本地 RAG：配合向量库做私有知识库问答
Agent 开发：为 LangChain、LlamaIndex 提供本地 LLM
边缘部署：IoT、离线场景
成本敏感业务：客服、内部工具等高频调用

深入学习

想全面了解 Ollama、vLLM、llama.cpp 的安装配置、GPU 调优、量化选型？请查看 本地推理深度解析。

参考资源

什么是本地推理
为什么选择本地推理
主流方案概览
核心概念
典型应用
深入学习
参考资源