[!TIP] AetherArchitectural 社区:
现已移至 AetherArchitectural/GGUF-Quantization-Script。致谢:
由 @Aetherarchio/@FantasiaFoundry/@Lewdiculous 满怀热忱开发,并得到了 @SolidSnacke 与 @Virt-io 的慷慨贡献。
如果本脚本对您有所帮助,欢迎注明出处并分享此仓库及作者信息。
[!NOTE] Linux 支持(实验性):
有一个适用于 Linux 的实验性脚本gguf-imat-lossless-for-BF16-linux.py[相关背景]。
虽然我个人无法对其进行测试,但值得一试,您可以反馈在您的环境中运行效果如何。
非常欢迎提出改进建议!
我们始终欢迎您通过提交 Pull Request 为本脚本贡献新功能和改进。

简单的 Python 脚本(gguf-imat.py - 建议使用特定的 "for-FP16" 或 "for-BF16" 脚本),用于从 Hugging Face author/model 输入生成各种 GGUF-IQ-Imatrix 量化版本,适用于 Windows 和 NVIDIA 硬件。
此脚本适用于配备 8GB 显存的 Windows 机器,并假设使用 NVIDIA GPU。如果您想更改 -ngl(GPU 层数)数量,可以在第 124 行进行修改。这仅在 --imatrix 数据生成期间相关。如果您的显存不足,可以减少 -ngl 的数量或将其设置为 0,以便所有层仅使用系统内存,这会使 imatrix 数据生成花费更长时间,因此找到适合您自己机器的最佳数值是个好主意。
您的 imatrix.txt 文件应位于 imatrix 文件夹内。我已包含一个被认为是良好起点的文件,它来源于此讨论。如果您有建议或其他 imatrix 数据推荐,请不吝提出。
在第 138 行调整 quantization_options。
[!NOTE]
下载用于量化的模型可能会缓存到C:\Users\{{User}}\.cache\huggingface\hub。完成量化后,您可以根据需要手动删除这些文件,如果您愿意,也可以直接从终端使用rmdir "C:\Users\{{User}}\.cache\huggingface\hub"命令进行删除。您可以将其放入另一个脚本中,或为其创建别名以方便使用。
硬件要求:
软件要求:
pip install huggingface_hub使用方法:
python .\gguf-imat-lossless-for-BF16.py量化结果将输出到创建的 models\{model-name}-GGUF 文件夹中。