本地推理常见问题

基础问题

A: 可以。llama.cpp 支持纯 CPU 推理，Ollama 也支持 CPU 模式，小模型（如 3B、7B 量化）在普通电脑上可运行，速度会较慢。

A: 开发、原型、个人使用选 Ollama；生产、高并发、多用户选 vLLM。

A: Q4_K_M 通常在多数任务上可接受；对质量要求高的场景可用 Q5 或更高精度。

A: 支持 LLaMA、Mistral、Qwen、Phi、Gemma 等，详见 Ollama 模型库。

A: 使用 langchain_community.llms.Ollama，指定 model 为已拉取的模型名即可。

A: 使用 --tensor-parallel-size N，N 为 GPU 数量。

A: 换更小模型、提高量化等级（如 Q4→Q2）、或使用 CPU 推理。

A: 使用 GPU、降低量化损失（Q5）、合理设置 batch、启用 Flash Attention 等。

最后更新: 2025 年 3 月