跳到主要内容

最佳实践

选型

本地/边缘：GGUF + llama.cpp / Ollama
GPU 生产：AWQ 或 GPTQ，优先 AWQ 若质量敏感
实验/QLoRA：BitsAndBytes 4-bit

档位选择

显存紧张：Q4_K_M 或 4-bit GPTQ/AWQ
质量优先：Q5_K_M、Q8_0 或 INT8
极端省显存：Q2_K（质量损失较大）

校准数据

与业务相关、长度多样
128–512 条通常足够
避免敏感数据进入校准集

评估

量化后务必做 PPL 或任务评估
与 FP16 baseline 对比，设定可接受的质量阈值
生产前做小流量 A/B 测试

与推理协同

确保推理框架支持所选格式（vLLM、Ollama、TGI 等）
注意 CUDA、驱动版本兼容性

参考

选型
档位选择
校准数据
评估
与推理协同
参考