跳到主要内容

开发指南

量化工作流

选择量化方法

目标	推荐
本地/Ollama/CPU	GGUF
GPU 生产、高并发	AWQ 或 GPTQ
快速实验、QLoRA	BitsAndBytes

校准数据准备（GPTQ/AWQ）

数量：通常 128–512 条
内容：与目标任务相关的文本，长度多样
来源：训练集采样、公开语料、或合成数据
注意：校准数据不应包含敏感信息，避免泄露

与推理框架集成

vLLM 加载 AWQ/GPTQ

vllm serve TheBloke/Qwen2-7B-Instruct-AWQ
# 或
vllm serve TheBloke/Qwen2-7B-Instruct-GPTQ

vLLM 会自动识别 AWQ/GPTQ 格式。

Ollama 使用自定义 GGUF

# 创建 Modelfile
echo 'FROM ./qwen2-7b-q4_k_m.gguf' > Modelfile
ollama create my-qwen -f Modelfile
ollama run my-qwen

精度评估

PPL：在 WikiText、C4 等 corpus 上计算 perplexity
Benchmark：MMLU、HumanEval、GSM8K 等
A/B 测试：线上对比量化版与 FP16 的用户反馈

常见问题处理

质量下降明显：尝试更高档位（Q5、Q8）或 AWQ
推理报错：检查格式兼容性、CUDA 版本、依赖版本
速度未提升：部分硬件上 INT4 kernel 未必更快，可测 INT8

参考

量化工作流
选择量化方法
校准数据准备（GPTQ/AWQ）
与推理框架集成
- vLLM 加载 AWQ/GPTQ
- Ollama 使用自定义 GGUF
精度评估
常见问题处理
参考