跳到主要内容

从零到一

本路径帮助你在约 1 周内掌握模型量化的基本流程，并完成从原始模型到可部署量化模型的完整实践。

阶段一：理解与选型（1 天）

阅读模型量化入门与深度解析
确定目标：本地运行选 GGUF，GPU 生产选 AWQ/GPTQ
准备环境：Python、CUDA（若用 GPU）、llama.cpp 或 AutoGPTQ

阶段二：GGUF 量化实践（2–3 天）

下载 7B 级原始模型（如 Qwen2-7B-Instruct）
使用 llama.cpp 转为 GGUF 并量化为 Q4_K_M
用 Ollama 或 llama-cli 加载并测试
对比 FP16（若条件允许）的显存与输出质量

阶段三：GPU 量化（可选，2–3 天）

安装 AutoGPTQ 或配置 AWQ 环境
准备 128–512 条校准数据
执行量化并保存
用 vLLM 加载并做简单压测
与未量化模型对比延迟与吞吐

阶段四：与应用集成（1 天）

将量化模型接入 Dify、LangChain 或自建服务
做端到端功能与质量验证
记录显存、延迟、吞吐变化

检查清单

能独立完成 GGUF 量化流程
理解 Q4、Q5、Q8 等档位的取舍
量化模型可被 Ollama/vLLM 正常加载
了解 GPTQ/AWQ 的基本用法（若做 GPU 量化）

扩展学习

模型部署 — 将量化模型对外服务
本地推理 — 更多本地运行方案
微调技术 — QLoRA 等量化微调

阶段一：理解与选型（1 天）
阶段二：GGUF 量化实践（2–3 天）
阶段三：GPU 量化（可选，2–3 天）
阶段四：与应用集成（1 天）
检查清单
扩展学习