跳到主要内容

开发指南

量化工作流

选择量化方法

目标推荐
本地/Ollama/CPUGGUF
GPU 生产、高并发AWQ 或 GPTQ
快速实验、QLoRABitsAndBytes

校准数据准备(GPTQ/AWQ)

  • 数量:通常 128–512 条
  • 内容:与目标任务相关的文本,长度多样
  • 来源:训练集采样、公开语料、或合成数据
  • 注意:校准数据不应包含敏感信息,避免泄露

与推理框架集成

vLLM 加载 AWQ/GPTQ

vllm serve TheBloke/Qwen2-7B-Instruct-AWQ
# 或
vllm serve TheBloke/Qwen2-7B-Instruct-GPTQ

vLLM 会自动识别 AWQ/GPTQ 格式。

Ollama 使用自定义 GGUF

# 创建 Modelfile
echo 'FROM ./qwen2-7b-q4_k_m.gguf' > Modelfile
ollama create my-qwen -f Modelfile
ollama run my-qwen

精度评估

  1. PPL:在 WikiText、C4 等 corpus 上计算 perplexity
  2. Benchmark:MMLU、HumanEval、GSM8K 等
  3. A/B 测试:线上对比量化版与 FP16 的用户反馈

常见问题处理

  • 质量下降明显:尝试更高档位(Q5、Q8)或 AWQ
  • 推理报错:检查格式兼容性、CUDA 版本、依赖版本
  • 速度未提升:部分硬件上 INT4 kernel 未必更快,可测 INT8

参考