开发指南
量化工作流
选择量化方法
| 目标 | 推荐 |
|---|---|
| 本地/Ollama/CPU | GGUF |
| GPU 生产、高并发 | AWQ 或 GPTQ |
| 快速实验、QLoRA | BitsAndBytes |
校准数据准备(GPTQ/AWQ)
- 数量:通常 128–512 条
- 内容:与目标任务相关的文本,长度多样
- 来源:训练集采样、公开语料、或合成数据
- 注意:校准数据不应包含敏感信息,避免泄露
与推理框架集成
vLLM 加载 AWQ/GPTQ
vllm serve TheBloke/Qwen2-7B-Instruct-AWQ
# 或
vllm serve TheBloke/Qwen2-7B-Instruct-GPTQ
vLLM 会自动识别 AWQ/GPTQ 格式。
Ollama 使用自定义 GGUF
# 创建 Modelfile
echo 'FROM ./qwen2-7b-q4_k_m.gguf' > Modelfile
ollama create my-qwen -f Modelfile
ollama run my-qwen
精度评估
- PPL:在 WikiText、C4 等 corpus 上计算 perplexity
- Benchmark:MMLU、HumanEval、GSM8K 等
- A/B 测试:线上对比量化版与 FP16 的用户反馈
常见问题处理
- 质量下降明显:尝试更高档位(Q5、Q8)或 AWQ
- 推理报错:检查格式兼容性、CUDA 版本、依赖版本
- 速度未提升:部分硬件上 INT4 kernel 未必更快,可测 INT8