最佳实践
选型
- 本地/边缘:GGUF + llama.cpp / Ollama
- GPU 生产:AWQ 或 GPTQ,优先 AWQ 若质量敏感
- 实验/QLoRA:BitsAndBytes 4-bit
档位选择
- 显存紧张:Q4_K_M 或 4-bit GPTQ/AWQ
- 质量优先:Q5_K_M、Q8_0 或 INT8
- 极端省显存:Q2_K(质量损失较大)
校准数据
- 与业务相关、长度多样
- 128–512 条通常足够
- 避免敏感数据进入校准集
评估
- 量化后务必做 PPL 或任务评估
- 与 FP16 baseline 对比,设定可接受的质量阈值
- 生产前做小流量 A/B 测试
与推理协同
- 确保推理框架支持所选格式(vLLM、Ollama、TGI 等)
- 注意 CUDA、驱动版本兼容性