[!TIP] AetherArchitectural 社区：
现已移至 AetherArchitectural/GGUF-Quantization-Script。

致谢：
由 @Aetherarchio/@FantasiaFoundry/@Lewdiculous 满怀热忱开发，并得到了 @SolidSnacke 与 @Virt-io 的慷慨贡献。
如果本脚本对您有所帮助，欢迎注明出处并分享此仓库及作者信息。

[!NOTE] Linux 支持（实验性）：
有一个适用于 Linux 的实验性脚本 gguf-imat-lossless-for-BF16-linux.py [相关背景]。
虽然我个人无法对其进行测试，但值得一试，您可以反馈在您的环境中运行效果如何。
非常欢迎提出改进建议！

我们始终欢迎您通过提交 Pull Request 为本脚本贡献新功能和改进。

GGUF-IQ-Imatrix-Quantization-Script:

image/png

简单的 Python 脚本（gguf-imat.py - 建议使用特定的 "for-FP16" 或 "for-BF16" 脚本），用于从 Hugging Face author/model 输入生成各种 GGUF-IQ-Imatrix 量化版本，适用于 Windows 和 NVIDIA 硬件。

此脚本适用于配备 8GB 显存的 Windows 机器，并假设使用 NVIDIA GPU。如果您想更改 -ngl（GPU 层数）数量，可以在第 124 行进行修改。这仅在 --imatrix 数据生成期间相关。如果您的显存不足，可以减少 -ngl 的数量或将其设置为 0，以便所有层仅使用系统内存，这会使 imatrix 数据生成花费更长时间，因此找到适合您自己机器的最佳数值是个好主意。

您的 imatrix.txt 文件应位于 imatrix 文件夹内。我已包含一个被认为是良好起点的文件，它来源于此讨论。如果您有建议或其他 imatrix 数据推荐，请不吝提出。

在第 138 行调整 quantization_options。

[!NOTE]
下载用于量化的模型可能会缓存到 C:\Users\{{User}}\.cache\huggingface\hub。完成量化后，您可以根据需要手动删除这些文件，如果您愿意，也可以直接从终端使用 rmdir "C:\Users\{{User}}\.cache\huggingface\hub" 命令进行删除。您可以将其放入另一个脚本中，或为其创建别名以方便使用。

硬件要求：

具有 8GB 显存的 NVIDIA GPU。
32GB 系统内存。

软件要求：

Windows 10/11
Git
Python 3.11
- pip install huggingface_hub

使用方法：

python .\gguf-imat-lossless-for-BF16.py

量化结果将输出到创建的 models\{model-name}-GGUF 文件夹中。

GGUF-IQ-Imatrix-Quantization-Script:

在第 138 行调整 quantization_options。

[!NOTE]
下载用于量化的模型可能会缓存到 C:\Users\{{User}}\.cache\huggingface\hub。完成量化后，您可以根据需要手动删除这些文件，如果您愿意，也可以直接从终端使用 rmdir "C:\Users\{{User}}\.cache\huggingface\hub" 命令进行删除。您可以将其放入另一个脚本中，或为其创建别名以方便使用。

硬件要求：

具有 8GB 显存的 NVIDIA GPU。

32GB 系统内存。

软件要求：

Windows 10/11

Git

Python 3.11

pip install huggingface_hub

使用方法：

python .\gguf-imat-lossless-for-BF16.py

量化结果将输出到创建的 models\{model-name}-GGUF 文件夹中。