跳到主要内容

模型部署与推理服务入门

什么是模型部署与推理服务

模型部署与推理服务是指将训练好的大语言模型（LLM）以可调用的 API 或服务形式对外提供，使其能够稳定、高效地处理生产环境下的推理请求。与「本地实验」不同，生产级推理服务需要关注吞吐量、延迟、资源利用、高可用等工程指标。

为什么需要专业的推理服务

性能：原生模型推理可能无法应对高并发，需要批处理、KV Cache 优化、连续批处理等技术
资源效率：显存昂贵，PagedAttention、量化、动态批处理可大幅提升 GPU 利用率
稳定性：生产环境需要健康检查、熔断、限流、自动扩缩容
协议兼容：与 OpenAI API 兼容便于应用层无缝切换不同后端
可观测性：延迟、QPS、错误率、Token 消耗等监控与追踪

主流推理框架概览

框架	特点	适用场景
vLLM	PagedAttention、高吞吐、连续批处理	生产部署、高并发
TGI	Hugging Face 官方、多框架支持、安全	企业级、多模型
SGLang	RadixAttention、结构化输出、推理优化	结构化生成、Agent
llama.cpp	CPU 友好、量化、轻量	边缘、无 GPU 环境
Ollama	开箱即用、模型管理	开发、小规模部署

核心概念

推理 API 设计

OpenAI 兼容：多数框架提供与 OpenAI Chat Completions 兼容的接口，便于迁移
流式输出：Streaming 可降低首 Token 延迟（TTFT），提升体验
批量推理：合并多个请求到同一 batch 提高 GPU 利用率

负载与扩缩容

单实例：显存与 QPS 限制
多实例：负载均衡、按需扩缩容
GPU 分片：Tensor Parallelism 支持超大模型

部署形态

容器化：Docker、Kubernetes 便于编排与扩缩容
Serverless：按需计费，适合流量波动场景
边缘部署：本地推理，数据不出域

典型应用

SaaS 产品：为多租户提供模型 API
企业内部：私有化部署，对接 Dify、LangChain 等
Agent 后端：为 OpenClaw、MCP 等提供推理能力
RAG 系统：知识库问答的 LLM 后端

与其他技术的关系

微调：微调后的模型需通过推理服务对外提供，参见微调技术
量化：量化可降低显存与延迟，推理服务常与量化配合，参见模型量化
本地推理：Ollama、llama.cpp 等轻量方案，参见本地推理

深入学习

想全面了解 vLLM、TGI、SGLang 的架构、部署方式、负载均衡与扩缩容实践？请查看 模型部署与推理服务深度解析。

该文档涵盖：

主流推理框架架构对比
OpenAI 兼容 API 与部署配置
负载均衡、扩缩容与高可用
性能调优与可观测性

参考资源

什么是模型部署与推理服务
为什么需要专业的推理服务
主流推理框架概览
核心概念
典型应用
与其他技术的关系
深入学习
参考资源