跳到主要内容

常见问题

原理与选型

Q: GPTQ 和 AWQ 该选哪个？

A: 多数场景 AWQ 略优，但需推理框架支持。两者都可考虑，建议做小规模对比测试。

Q: GGUF 和 AWQ/GPTQ 的区别？

A: GGUF 面向 llama.cpp/Ollama 生态，CPU 友好；AWQ/GPTQ 面向 GPU 推理框架（vLLM、TGI），生产部署常用。

使用

Q: 量化后模型变「蠢」了怎么办？

A: 尝试更高档位（Q5、Q8 或 INT8）、换 AWQ、或对关键层保持 FP16。若仍不满意，考虑更大基座模型。

Q: 显存占用没有明显下降？

A: 确认使用的是量化后权重而非临时反量化。检查推理框架是否正确识别量化格式。

Q: Ollama 如何加载自己的 GGUF？

A: 用 ollama create 配合 Modelfile，FROM 指向本地 .gguf 文件路径。

参考

原理与选型
使用
参考