常见问题
安装与启动
Q: vLLM 安装失败,提示 CUDA 版本不匹配?
A: 确保 CUDA 版本与 vLLM 要求一致(通常 11.8+ 或 12.x),可使用 nvcc --version 检查。pip 安装时可用 pip install vllm 自动匹配预编译包。
Q: 启动后 OOM(显存不足)?
A: 尝试:(1) 使用量化模型(4-bit);(2) 减小 --max-model-len;(3) 调低 --gpu-memory-utilization;(4) 换更小模型。参见 模型量化。
性能
Q: 吞吐量低,如何提升?
A: 增大 batch(--max-num-seqs)、使用量化、多实例负载均衡。vLLM 的连续批处理已默认开启。
Q: 首 Token 延迟(TTFT)高?
A: 流式输出可改善体感。若仍高,检查是否冷启动、模型是否过大、是否可量化。
部署
Q: 如何与 Dify、LangChain 对接?
A: 配置为 OpenAI 兼容 API:base_url 指向推理服务地址(如 http://host:8000/v1),api_key 可按实现要求填(如 dummy)。
Q: Kubernetes 如何分配 GPU?
A: 使用 nvidia.com/gpu: 1 等 resource 声明,并确保节点有 GPU 且驱动正常。可配合 NodeSelector 指定 GPU 节点。