从零到一
本路径帮助你在约 1 周内掌握模型量化的基本流程,并完成从原始模型到可部署量化模型的完整实践。
阶段一:理解与选型(1 天)
阶段二:GGUF 量化实践(2–3 天)
- 下载 7B 级原始模型(如 Qwen2-7B-Instruct)
- 使用 llama.cpp 转为 GGUF 并量化为 Q4_K_M
- 用 Ollama 或 llama-cli 加载并测试
- 对比 FP16(若条件允许)的显存与输出质量
阶段三:GPU 量化(可选,2–3 天)
- 安装 AutoGPTQ 或配置 AWQ 环境
- 准备 128–512 条校准数据
- 执行量化并保存
- 用 vLLM 加载并做简单压测
- 与未量化模型对比延迟与吞吐
阶段四:与应用集成(1 天)
- 将量化模型接入 Dify、LangChain 或自建服务
- 做端到端功能与质量验证
- 记录显存、延迟、吞吐变化
检查清单
- 能独立完成 GGUF 量化流程
- 理解 Q4、Q5、Q8 等档位的取舍
- 量化模型可被 Ollama/vLLM 正常加载
- 了解 GPTQ/AWQ 的基本用法(若做 GPU 量化)