跳到主要内容

本地推理常见问题

基础问题

Q1: 没有 GPU 能用本地推理吗?

A: 可以。llama.cpp 支持纯 CPU 推理,Ollama 也支持 CPU 模式,小模型(如 3B、7B 量化)在普通电脑上可运行,速度会较慢。

Q2: Ollama 和 vLLM 怎么选?

A: 开发、原型、个人使用选 Ollama;生产、高并发、多用户选 vLLM。

Q3: 量化会明显影响效果吗?

A: Q4_K_M 通常在多数任务上可接受;对质量要求高的场景可用 Q5 或更高精度。

使用问题

Q4: Ollama 支持哪些模型?

A: 支持 LLaMA、Mistral、Qwen、Phi、Gemma 等,详见 Ollama 模型库

Q5: 如何让 LangChain 使用 Ollama?

A: 使用 langchain_community.llms.Ollama,指定 model 为已拉取的模型名即可。

Q6: vLLM 如何做多卡部署?

A: 使用 --tensor-parallel-size N,N 为 GPU 数量。

技术问题

Q7: 显存不足怎么办?

A: 换更小模型、提高量化等级(如 Q4→Q2)、或使用 CPU 推理。

Q8: 如何加速推理?

A: 使用 GPU、降低量化损失(Q5)、合理设置 batch、启用 Flash Attention 等。


最后更新: 2025 年 3 月