GitHub 项目与资源
推理框架
| 项目 | 说明 | 链接 |
|---|---|---|
| vLLM | 高吞吐推理,PagedAttention | github.com/vllm-project/vllm |
| TGI | Hugging Face 官方推理服务 | github.com/huggingface/text-generation-inference |
| SGLang | RadixAttention,结构化输出优化 | github.com/sgl-project/sglang |
| llama.cpp | C++ 实现,CPU/量化友好 | github.com/ggerkanov/llama.cpp |
| Ollama | 本地模型管理,开箱即用 | github.com/ollama/ollama |
部署与编排
| 项目 | 说明 | 链接 |
|---|---|---|
| vLLM Helm Chart | K8s 部署 vLLM | 社区 chart 或自建 |
| KServe | Kubernetes 模型 serving 标准 | github.com/kserve/kserve |
| TensorRT-LLM | NVIDIA 高性能推理 | github.com/NVIDIA/TensorRT-LLM |