跳到主要内容

从零到一

本路径帮助你在约 1 周内掌握模型量化的基本流程,并完成从原始模型到可部署量化模型的完整实践。

阶段一:理解与选型(1 天)

  1. 阅读 模型量化入门深度解析
  2. 确定目标:本地运行选 GGUF,GPU 生产选 AWQ/GPTQ
  3. 准备环境:Python、CUDA(若用 GPU)、llama.cpp 或 AutoGPTQ

阶段二:GGUF 量化实践(2–3 天)

  1. 下载 7B 级原始模型(如 Qwen2-7B-Instruct)
  2. 使用 llama.cpp 转为 GGUF 并量化为 Q4_K_M
  3. 用 Ollama 或 llama-cli 加载并测试
  4. 对比 FP16(若条件允许)的显存与输出质量

阶段三:GPU 量化(可选,2–3 天)

  1. 安装 AutoGPTQ 或配置 AWQ 环境
  2. 准备 128–512 条校准数据
  3. 执行量化并保存
  4. 用 vLLM 加载并做简单压测
  5. 与未量化模型对比延迟与吞吐

阶段四:与应用集成(1 天)

  1. 将量化模型接入 Dify、LangChain 或自建服务
  2. 做端到端功能与质量验证
  3. 记录显存、延迟、吞吐变化

检查清单

  • 能独立完成 GGUF 量化流程
  • 理解 Q4、Q5、Q8 等档位的取舍
  • 量化模型可被 Ollama/vLLM 正常加载
  • 了解 GPTQ/AWQ 的基本用法(若做 GPU 量化)

扩展学习