本地推理相关 GitHub 项目
推理引擎
| 项目 | 描述 | 链 接 |
|---|---|---|
| Ollama | 本地运行 LLM 的简单方案 | ollama/ollama |
| vLLM | 高吞吐推理引擎 | vllm-project/vllm |
| llama.cpp | C++ 实现,CPU/GPU 推理 | ggerganov/llama.cpp |
| LM Studio | 桌面端模型管理与推理 | LM Studio |
| text-generation-inference | Hugging Face 官方推理服务 | huggingface/text-generation-inference |
量化与转换
| 项目 | 描述 | 链接 |
|---|---|---|
| llama.cpp | GGUF 量化与转换 | ggerganov/llama.cpp |
| AutoAWQ | AWQ 量化 | AutoMQ/autoawq |
| GPTQ-for-LLaMa | GPTQ 量化 | qwopqwop200/GPTQ-for-LLaMa |