HuggingFace镜像/GGUF-Quantization-Script
模型介绍文件和版本分析
下载使用量0

[!TIP] AetherArchitectural 社区:
现已移至 AetherArchitectural/GGUF-Quantization-Script。

致谢:
由 @Aetherarchio/@FantasiaFoundry/@Lewdiculous 满怀热忱开发,并得到了 @SolidSnacke 与 @Virt-io 的慷慨贡献。
如果本脚本对您有所帮助,欢迎注明出处并分享此仓库及作者信息。

[!NOTE] Linux 支持(实验性):
有一个适用于 Linux 的实验性脚本 gguf-imat-lossless-for-BF16-linux.py [相关背景]。
虽然我个人无法对其进行测试,但值得一试,您可以反馈在您的环境中运行效果如何。
非常欢迎提出改进建议!

我们始终欢迎您通过提交 Pull Request 为本脚本贡献新功能和改进。

GGUF-IQ-Imatrix-Quantization-Script:

image/png

简单的 Python 脚本(gguf-imat.py - 建议使用特定的 "for-FP16" 或 "for-BF16" 脚本),用于从 Hugging Face author/model 输入生成各种 GGUF-IQ-Imatrix 量化版本,适用于 Windows 和 NVIDIA 硬件。

此脚本适用于配备 8GB 显存的 Windows 机器,并假设使用 NVIDIA GPU。如果您想更改 -ngl(GPU 层数)数量,可以在第 124 行进行修改。这仅在 --imatrix 数据生成期间相关。如果您的显存不足,可以减少 -ngl 的数量或将其设置为 0,以便所有层仅使用系统内存,这会使 imatrix 数据生成花费更长时间,因此找到适合您自己机器的最佳数值是个好主意。

您的 imatrix.txt 文件应位于 imatrix 文件夹内。我已包含一个被认为是良好起点的文件,它来源于此讨论。如果您有建议或其他 imatrix 数据推荐,请不吝提出。

在第 138 行调整 quantization_options。

[!NOTE]
下载用于量化的模型可能会缓存到 C:\Users\{{User}}\.cache\huggingface\hub。完成量化后,您可以根据需要手动删除这些文件,如果您愿意,也可以直接从终端使用 rmdir "C:\Users\{{User}}\.cache\huggingface\hub" 命令进行删除。您可以将其放入另一个脚本中,或为其创建别名以方便使用。

硬件要求:

  • 具有 8GB 显存的 NVIDIA GPU。
  • 32GB 系统内存。

软件要求:

  • Windows 10/11
  • Git
  • Python 3.11
    • pip install huggingface_hub

使用方法:

python .\gguf-imat-lossless-for-BF16.py

量化结果将输出到创建的 models\{model-name}-GGUF 文件夹中。