跳到主要内容

从零到一

本路径帮助你在约 1–2 周内从零搭建一个可用的模型推理服务,并完成与应用的对接。

阶段一:环境准备(1 天)

  1. 硬件:准备带 NVIDIA GPU 的机器(云主机或本地),8GB+ 显存
  2. 环境:安装 CUDA、Python 3.9+、pip
  3. 模型:从 Hugging Face 拉取一个 7B 模型(如 Qwen2-7B-Instruct),或使用量化版
  4. 验证nvidia-smi 可见 GPU,python -c "import torch; print(torch.cuda.is_available())" 为 True

阶段二:本地推理服务(2–3 天)

  1. 安装 vLLMpip install vllm
  2. 启动服务vllm serve Qwen/Qwen2-7B-Instruct --host 0.0.0.0 --port 8000
  3. 测试:用 curl 或 Python OpenAI 客户端调用 /v1/chat/completions
  4. 流式:测试 stream: true 的流式输出
  5. 量化(可选):尝试加载 4-bit 量化模型,对比显存与延迟

阶段三:应用集成(2–3 天)

  1. LangChain:用 ChatOpenAI(base_url="...", api_key="dummy") 连接自建推理服务
  2. Dify(可选):在 Dify 中配置自定义模型,base_url 指向本地服务
  3. 简单前端:写一个聊天页面调用 API,验证端到端流程

阶段四:生产化(3–5 天)

  1. 容器化:编写 Dockerfile,将 vLLM 打包成镜像
  2. 多实例:用 Docker Compose 或 K8s 启动 2 个以上副本,前挂 Nginx 负载均衡
  3. 监控:集成 Prometheus 指标或简单日志,观察 QPS、延迟、错误
  4. 扩缩容(可选):在 K8s 中配置 HPA,按负载自动扩缩容

检查清单

  • 本地单实例推理服务可正常调用
  • 流式输出工作正常
  • 与 LangChain 或 Dify 集成成功
  • 容器化并可多副本部署
  • 有基本监控与日志

扩展学习