跳到主要内容

本地推理快速入门

以 Ollama 为例,快速在本地运行大模型。

安装 Ollama

macOS / Linux

# 官方安装脚本
curl -fsSL https://ollama.com/install.sh | sh

Windows

ollama.com 下载安装包,按向导安装。

拉取并运行模型

# 拉取 LLaMA 3(约 4.7GB)
ollama pull llama3

# 交互式运行
ollama run llama3

在交互界面直接输入问题即可。

API 调用

Ollama 默认在 http://localhost:11434 提供 OpenAI 兼容 API:

curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama3",
"messages": [{"role": "user", "content": "你好"}],
"stream": false
}'

与 LangChain 集成

pip install langchain langchain-community
from langchain_community.llms import Ollama

llm = Ollama(model="llama3")
print(llm.invoke("介绍一下 RAG"))

与 LlamaIndex 集成

from llama_index.llms.ollama import Ollama

llm = Ollama(model="llama3", request_timeout=60.0)
response = llm.complete("你好")
print(response.text)

常见模型推荐

模型大小说明
llama34.7GB通用对话
qwen2.54.4GB中文友好
mistral4.1GB平衡性能
phi32.3GB小显存
gemma25.4GB多语言

下一步