常见问题
原理与选型
Q: GPTQ 和 AWQ 该选哪个?
A: 多数场景 AWQ 略优,但需推理框架支持。两者都可考虑,建议做小规模对比测试。
Q: GGUF 和 AWQ/GPTQ 的区别?
A: GGUF 面向 llama.cpp/Ollama 生态,CPU 友好;AWQ/GPTQ 面向 GPU 推理框架(vLLM、TGI),生产部署常用。
使用
Q: 量化后模型变「蠢」了怎么办?
A: 尝试更高档位(Q5、Q8 或 INT8)、换 AWQ、或对关键层保持 FP16。若仍不满意,考虑更大基座模型。
Q: 显存占用没有明显下降?
A: 确认使用的是量化后权重而非临时反量化。检查推理框架是否正确识别量化格式。
Q: Ollama 如何加载自己的 GGUF?
A: 用 ollama create 配合 Modelfile,FROM 指向本地 .gguf 文件路径。