快速开始

前置条件

硬件：至少一块支持 CUDA 的 NVIDIA GPU（建议 8GB+ 显存）
软件：Python 3.9+、CUDA 11.8+、Docker（可选）
模型：Hugging Face 模型 ID 或本地模型路径（支持 Safetensors、GGUF 等）

方式一：vLLM 快速体验

安装

pip install vllm

启动服务

# 使用 Hugging Face 模型 ID
vllm serve Qwen/Qwen2-7B-Instruct

# 指定端口与 host
vllm serve Qwen/Qwen2-7B-Instruct --host 0.0.0.0 --port 8000

调用 API

curl -X POST http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen2-7B-Instruct",
    "messages": [{"role": "user", "content": "你好，介绍一下你自己"}],
    "max_tokens": 256
  }'

与 Python 客户端集成

from openai import OpenAI

# vLLM 兼容 OpenAI API
client = OpenAI(base_url="http://localhost:8000/v1", api_key="dummy")

response = client.chat.completions.create(
    model="Qwen/Qwen2-7B-Instruct",
    messages=[{"role": "user", "content": "你好"}],
    max_tokens=256,
)

print(response.choices[0].message.content)

方式二：TGI 快速体验

Docker 启动

docker run --gpus all -p 8080:80 \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id Qwen/Qwen2-7B-Instruct

调用

curl -X POST http://localhost:8080/generate \
  -H "Content-Type: application/json" \
  -d '{
    "inputs": "你好",
    "parameters": {"max_new_tokens": 256, "temperature": 0.7}
  }'

TGI 也支持 OpenAI 兼容模式，具体以官方文档为准。

方式三：Ollama（开发与轻量部署）

参见本地推理快速开始。

常用参数说明

参数	说明	示例
`--host`	监听地址	`0.0.0.0` 允许外网访问
`--port`	端口	`8000`
`--tensor-parallel-size`	GPU 张量并行数	`2` 表示 2 卡并行
`--max-model-len`	最大上下文长度	`4096`
`--gpu-memory-utilization`	GPU 显存利用率	`0.9`

验证清单

服务正常启动，无 CUDA/OOM 报错
curl 或 Python 客户端可成功调用
流式输出（stream: true）工作正常
日志中无异常警告

下一步

模型部署开发指南 — 生产部署、负载均衡、扩缩容
最佳实践 — 性能调优、安全与运维
从零到一 — 完整学习路径

前置条件​

方式一：vLLM 快速体验​

安装​

启动服务​

调用 API​

与 Python 客户端集成​

方式二：TGI 快速体验​

Docker 启动​

调用​

方式三：Ollama（开发与轻量部署）​

常用参数说明​

验证清单​

下一步​

前置条件

方式一：vLLM 快速体验

安装

启动服务

调用 API

与 Python 客户端集成

方式二：TGI 快速体验

Docker 启动

调用

方式三：Ollama（开发与轻量部署）

常用参数说明

验证清单

下一步