快速开始
前置条件
- 硬件:至少一块支持 CUDA 的 NVIDIA GPU(建议 8GB+ 显存)
- 软件:Python 3.9+、CUDA 11.8+、Docker(可选)
- 模型:Hugging Face 模型 ID 或本地模型路径(支持 Safetensors、GGUF 等)
方式一:vLLM 快速体验
安装
pip install vllm
启动服务
# 使用 Hugging Face 模型 ID
vllm serve Qwen/Qwen2-7B-Instruct
# 指定端口与 host
vllm serve Qwen/Qwen2-7B-Instruct --host 0.0.0.0 --port 8000
调用 API
curl -X POST http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen2-7B-Instruct",
"messages": [{"role": "user", "content": "你好,介绍一下你自己"}],
"max_tokens": 256
}'
与 Python 客户端集成
from openai import OpenAI
# vLLM 兼容 OpenAI API
client = OpenAI(base_url="http://localhost:8000/v1", api_key="dummy")
response = client.chat.completions.create(
model="Qwen/Qwen2-7B-Instruct",
messages=[{"role": "user", "content": "你好"}],
max_tokens=256,
)
print(response.choices[0].message.content)
方式二:TGI 快速体验
Docker 启动
docker run --gpus all -p 8080:80 \
ghcr.io/huggingface/text-generation-inference:latest \
--model-id Qwen/Qwen2-7B-Instruct
调用
curl -X POST http://localhost:8080/generate \
-H "Content-Type: application/json" \
-d '{
"inputs": "你好",
"parameters": {"max_new_tokens": 256, "temperature": 0.7}
}'
TGI 也支持 OpenAI 兼容模式,具体以官方文档为准。
方式三:Ollama(开发与轻量部署)
参见 本地推理快速开始。
常用参数说明
| 参数 | 说明 | 示例 |
|---|---|---|
--host | 监听地址 | 0.0.0.0 允许外网访问 |
--port | 端口 | 8000 |
--tensor-parallel-size | GPU 张量并行数 | 2 表示 2 卡并行 |
--max-model-len | 最大上下文长度 | 4096 |
--gpu-memory-utilization | GPU 显存利用率 | 0.9 |
验证清单
- 服务正常启动,无 CUDA/OOM 报错
-
curl或 Python 客户端可成功调用 - 流式输出(
stream: true)工作正常 - 日志中无异常警告