跳到主要内容

快速开始

前置条件

  • 硬件:至少一块支持 CUDA 的 NVIDIA GPU(建议 8GB+ 显存)
  • 软件:Python 3.9+、CUDA 11.8+、Docker(可选)
  • 模型:Hugging Face 模型 ID 或本地模型路径(支持 Safetensors、GGUF 等)

方式一:vLLM 快速体验

安装

pip install vllm

启动服务

# 使用 Hugging Face 模型 ID
vllm serve Qwen/Qwen2-7B-Instruct

# 指定端口与 host
vllm serve Qwen/Qwen2-7B-Instruct --host 0.0.0.0 --port 8000

调用 API

curl -X POST http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen2-7B-Instruct",
"messages": [{"role": "user", "content": "你好,介绍一下你自己"}],
"max_tokens": 256
}'

与 Python 客户端集成

from openai import OpenAI

# vLLM 兼容 OpenAI API
client = OpenAI(base_url="http://localhost:8000/v1", api_key="dummy")

response = client.chat.completions.create(
model="Qwen/Qwen2-7B-Instruct",
messages=[{"role": "user", "content": "你好"}],
max_tokens=256,
)

print(response.choices[0].message.content)

方式二:TGI 快速体验

Docker 启动

docker run --gpus all -p 8080:80 \
ghcr.io/huggingface/text-generation-inference:latest \
--model-id Qwen/Qwen2-7B-Instruct

调用

curl -X POST http://localhost:8080/generate \
-H "Content-Type: application/json" \
-d '{
"inputs": "你好",
"parameters": {"max_new_tokens": 256, "temperature": 0.7}
}'

TGI 也支持 OpenAI 兼容模式,具体以官方文档为准。

方式三:Ollama(开发与轻量部署)

参见 本地推理快速开始

常用参数说明

参数说明示例
--host监听地址0.0.0.0 允许外网访问
--port端口8000
--tensor-parallel-sizeGPU 张量并行数2 表示 2 卡并行
--max-model-len最大上下文长度4096
--gpu-memory-utilizationGPU 显存利用率0.9

验证清单

  • 服务正常启动,无 CUDA/OOM 报错
  • curl 或 Python 客户端可成功调用
  • 流式输出(stream: true)工作正常
  • 日志中无异常警告

下一步