跳到主要内容

模型部署与推理服务入门

什么是模型部署与推理服务

模型部署与推理服务是指将训练好的大语言模型(LLM)以可调用的 API 或服务形式对外提供,使其能够稳定、高效地处理生产环境下的推理请求。与「本地实验」不同,生产级推理服务需要关注吞吐量、延迟、资源利用、高可用等工程指标。

为什么需要专业的推理服务

  1. 性能:原生模型推理可能无法应对高并发,需要批处理、KV Cache 优化、连续批处理等技术
  2. 资源效率:显存昂贵,PagedAttention、量化、动态批处理可大幅提升 GPU 利用率
  3. 稳定性:生产环境需要健康检查、熔断、限流、自动扩缩容
  4. 协议兼容:与 OpenAI API 兼容便于应用层无缝切换不同后端
  5. 可观测性:延迟、QPS、错误率、Token 消耗等监控与追踪

主流推理框架概览

框架特点适用场景
vLLMPagedAttention、高吞吐、连续批处理生产部署、高并发
TGIHugging Face 官方、多框架支持、安全企业级、多模型
SGLangRadixAttention、结构化输出、推理优化结构化生成、Agent
llama.cppCPU 友好、量化、轻量边缘、无 GPU 环境
Ollama开箱即用、模型管理开发、小规模部署

核心概念

推理 API 设计

  • OpenAI 兼容:多数框架提供与 OpenAI Chat Completions 兼容的接口,便于迁移
  • 流式输出:Streaming 可降低首 Token 延迟(TTFT),提升体验
  • 批量推理:合并多个请求到同一 batch 提高 GPU 利用率

负载与扩缩容

  • 单实例:显存与 QPS 限制
  • 多实例:负载均衡、按需扩缩容
  • GPU 分片:Tensor Parallelism 支持超大模型

部署形态

  • 容器化:Docker、Kubernetes 便于编排与扩缩容
  • Serverless:按需计费,适合流量波动场景
  • 边缘部署:本地推理,数据不出域

典型应用

  • SaaS 产品:为多租户提供模型 API
  • 企业内部:私有化部署,对接 Dify、LangChain 等
  • Agent 后端:为 OpenClaw、MCP 等提供推理能力
  • RAG 系统:知识库问答的 LLM 后端

与其他技术的关系

  • 微调:微调后的模型需通过推理服务对外提供,参见 微调技术
  • 量化:量化可降低显存与延迟,推理服务常与量化配合,参见 模型量化
  • 本地推理:Ollama、llama.cpp 等轻量方案,参见 本地推理

深入学习

想全面了解 vLLM、TGI、SGLang 的架构、部署方式、负载均衡与扩缩容实践?请查看 模型部署与推理服务深度解析

该文档涵盖:

  • 主流推理框架架构对比
  • OpenAI 兼容 API 与部署配置
  • 负载均衡、扩缩容与高可用
  • 性能调优与可观测性

参考资源