使用 turboderp 的 ExLlamaV2 v0.0.15 预览版进行量化。
请注意:"main"分支仅包含 measurement.json 文件,请下载其他分支以获取完整模型(详见下方)
每个分支对应不同的权重比特精度,主分支仅包含用于进一步转换的 measurement.json 文件。
原始模型:https://huggingface.co/cognitivecomputations/dolphincoder-starcoder2-15b
| 分支 | 权重比特 | lm_head 比特 | VRAM (4k) | VRAM (16k) | VRAM (32k) | 描述 |
|---|---|---|---|---|---|---|
| 8_0 | 8.0 | 8.0 | 16.6 GB | 17.5 GB | 18.8 GB | ExLlamaV2 可实现的最高质量,接近未量化性能 |
| 6_5 | 6.5 | 8.0 | 13.9 GB | 14.9 GB | 16.2 GB | 在显著减小体积的同时保持接近未量化性能,推荐使用 |
| 5_0 | 5.0 | 6.0 | 11.2 GB | 12.2 GB | 13.5 GB | 质量略低于 6.5 版本 |
| 4_25 | 4.25 | 6.0 | 9.8 GB | 10.7 GB | 12.0 GB | 等效于 GPTQ 的每权重比特精度 |
| 3_5 | 3.5 | 6.0 | 8.4 GB | 9.3 GB | 10.6 GB | 质量较低,不推荐使用 |
使用 git 下载:
git clone --single-branch --branch 6_5 https://huggingface.co/bartowski/dolphincoder-starcoder2-15b-exl2借助 Hugging Face Hub(感谢 TheBloke 提供的指导):
pip3 install huggingface-hub要将 main 分支(仅适用于仅关注 measurement.json 的情况)下载到名为 dolphincoder-starcoder2-15b-exl2 的文件夹中:
mkdir dolphincoder-starcoder2-15b-exl2
huggingface-cli download bartowski/dolphincoder-starcoder2-15b-exl2 --local-dir dolphincoder-starcoder2-15b-exl2 --local-dir-use-symlinks False要从其他分支下载,请添加 --revision 参数:
Linux:
mkdir dolphincoder-starcoder2-15b-exl2-6_5
huggingface-cli download bartowski/dolphincoder-starcoder2-15b-exl2 --revision 6_5 --local-dir dolphincoder-starcoder2-15b-exl2-6_5 --local-dir-use-symlinks FalseWindows(似乎有时在文件夹中不支持下划线?):
mkdir dolphincoder-starcoder2-15b-exl2-6.5
huggingface-cli download bartowski/dolphincoder-starcoder2-15b-exl2 --revision 6_5 --local-dir dolphincoder-starcoder2-15b-exl2-6.5 --local-dir-use-symlinks False