跳到主要内容

最佳实践

选型

  • 本地/边缘:GGUF + llama.cpp / Ollama
  • GPU 生产:AWQ 或 GPTQ,优先 AWQ 若质量敏感
  • 实验/QLoRA:BitsAndBytes 4-bit

档位选择

  • 显存紧张:Q4_K_M 或 4-bit GPTQ/AWQ
  • 质量优先:Q5_K_M、Q8_0 或 INT8
  • 极端省显存:Q2_K(质量损失较大)

校准数据

  • 与业务相关、长度多样
  • 128–512 条通常足够
  • 避免敏感数据进入校准集

评估

  • 量化后务必做 PPL 或任务评估
  • 与 FP16 baseline 对比,设定可接受的质量阈值
  • 生产前做小流量 A/B 测试

与推理协同

  • 确保推理框架支持所选格式(vLLM、Ollama、TGI 等)
  • 注意 CUDA、驱动版本兼容性

参考