常见问题

安装与启动

Q: vLLM 安装失败，提示 CUDA 版本不匹配？

A: 确保 CUDA 版本与 vLLM 要求一致（通常 11.8+ 或 12.x），可使用 nvcc --version 检查。pip 安装时可用 pip install vllm 自动匹配预编译包。

Q: 启动后 OOM（显存不足）？

A: 尝试：(1) 使用量化模型（4-bit）；(2) 减小 --max-model-len；(3) 调低 --gpu-memory-utilization；(4) 换更小模型。参见模型量化。

Q: 吞吐量低，如何提升？

A: 增大 batch（--max-num-seqs）、使用量化、多实例负载均衡。vLLM 的连续批处理已默认开启。

Q: 首 Token 延迟（TTFT）高？

A: 流式输出可改善体感。若仍高，检查是否冷启动、模型是否过大、是否可量化。

Q: 如何与 Dify、LangChain 对接？

A: 配置为 OpenAI 兼容 API：base_url 指向推理服务地址（如 http://host:8000/v1），api_key 可按实现要求填（如 dummy）。

Q: Kubernetes 如何分配 GPU？

A: 使用 nvidia.com/gpu: 1 等 resource 声明，并确保节点有 GPU 且驱动正常。可配合 NodeSelector 指定 GPU 节点。