跳到主要内容

从零到一

本路径帮助你在约 1–2 周内从零搭建一个可用的模型推理服务，并完成与应用的对接。

阶段一：环境准备（1 天）

硬件：准备带 NVIDIA GPU 的机器（云主机或本地），8GB+ 显存
环境：安装 CUDA、Python 3.9+、pip
模型：从 Hugging Face 拉取一个 7B 模型（如 Qwen2-7B-Instruct），或使用量化版
验证：nvidia-smi 可见 GPU，python -c "import torch; print(torch.cuda.is_available())" 为 True

阶段二：本地推理服务（2–3 天）

安装 vLLM：pip install vllm
启动服务：vllm serve Qwen/Qwen2-7B-Instruct --host 0.0.0.0 --port 8000
测试：用 curl 或 Python OpenAI 客户端调用 /v1/chat/completions
流式：测试 stream: true 的流式输出
量化（可选）：尝试加载 4-bit 量化模型，对比显存与延迟

阶段三：应用集成（2–3 天）

LangChain：用 ChatOpenAI(base_url="...", api_key="dummy") 连接自建推理服务
Dify（可选）：在 Dify 中配置自定义模型，base_url 指向本地服务
简单前端：写一个聊天页面调用 API，验证端到端流程

阶段四：生产化（3–5 天）

容器化：编写 Dockerfile，将 vLLM 打包成镜像
多实例：用 Docker Compose 或 K8s 启动 2 个以上副本，前挂 Nginx 负载均衡
监控：集成 Prometheus 指标或简单日志，观察 QPS、延迟、错误
扩缩容（可选）：在 K8s 中配置 HPA，按负载自动扩缩容

检查清单

本地单实例推理服务可正常调用
流式输出工作正常
与 LangChain 或 Dify 集成成功
容器化并可多副本部署
有基本监控与日志

扩展学习

模型量化 — 进一步降低显存与成本
AI 可观测性 — 完善 LLM 应用监控
本地推理 — 轻量方案的更多选择

阶段一：环境准备（1 天）
阶段二：本地推理服务（2–3 天）
阶段三：应用集成（2–3 天）
阶段四：生产化（3–5 天）
检查清单
扩展学习