GitHub 项目与资源
量化工具
| 项目 | 说明 | 链接 |
|---|---|---|
| llama.cpp | GGUF 量化与 CPU 推理 | github.com/ggerganov/llama.cpp |
| AutoGPTQ | GPTQ 量化与推理 | github.com/AutoGPTQ/AutoGPTQ |
| AWQ | 激活感知权重量化 | github.com/mit-han-lab/awq |
| GPTQ-for-LLaMA | 早期 GPTQ 实现 | 已被 AutoGPTQ 等替代 |
| BitsAndBytes | 动态 8/4-bit 量化 | github.com/bitsandbytes-foundation/bitsandbytes |
预量化模型
| 来源 | 说明 |
|---|---|
| TheBloke | Hugging Face 上大量 GGUF、GPTQ、AWQ 模型 |
| Ollama 模型库 | ollama.com 可拉取的预量化模型 |
| Hugging Face | 搜索 awq、gptq、gguf 等标签 |