Codestral-22B-v0.1-IMat-GGUF

mistralai/Codestral-22B-v0.1（legraphista/Codestral-22B-v0.1-hf-FIM-fix）的Llama.cpp imatrix量化版本

更新：

2024年5月31日：修复了模型缺失的FIM令牌

原始模型：mistralai/Codestral-22B-v0.1
量化后的HF模型：legraphista/Codestral-22B-v0.1-hf-FIM-fix
原始数据类型：BF16（bfloat16）
量化工具：llama.cpp b3046
IMatrix数据集：此处

文件
使用huggingface-cli下载
推理
常见问题
- 为什么IMatrix没有应用于所有地方？
- 如何合并拆分的GGUF文件？

文件

IMatrix

状态：✅ 可用
链接：此处

常见量化版本

文件名	量化类型	文件大小	状态	是否使用IMatrix	是否拆分
Codestral-22B-v0.1-hf.Q8_0.gguf	Q8_0	23.64GB	✅ 可用	⚪ 静态	📦 否
Codestral-22B-v0.1-hf.Q6_K.gguf	Q6_K	18.25GB	✅ 可用	⚪ 静态	📦 否
Codestral-22B-v0.1-hf.Q4_K.gguf	Q4_K	13.34GB	✅ 可用	🟢 IMatrix	📦 否
Codestral-22B-v0.1-hf.Q3_K.gguf	Q3_K	10.76GB	✅ 可用	🟢 IMatrix	📦 否
Codestral-22B-v0.1-hf.Q2_K.gguf	Q2_K	8.27GB	✅ 可用	🟢 IMatrix	📦 否

所有量化版本

文件名	量化类型	文件大小	状态	是否使用 IMatrix	是否分割
Codestral-22B-v0.1-hf.BF16.gguf	BF16	44.50GB	✅ 可获取	⚪ 静态	📦 否
Codestral-22B-v0.1-hf.FP16.gguf	F16	44.50GB	✅ 可获取	⚪ 静态	📦 否
Codestral-22B-v0.1-hf.Q8_0.gguf	Q8_0	23.64GB	✅ 可获取	⚪ 静态	📦 否
Codestral-22B-v0.1-hf.Q6_K.gguf	Q6_K	18.25GB	✅ 可获取	⚪ 静态	📦 否
Codestral-22B-v0.1-hf.Q5_K.gguf	Q5_K	15.72GB	✅ 可获取	⚪ 静态	📦 否
Codestral-22B-v0.1-hf.Q5_K_S.gguf	Q5_K_S	15.32GB	✅ 可获取	⚪ 静态	📦 否
Codestral-22B-v0.1-hf.Q4_K.gguf	Q4_K	13.34GB	✅ 可获取	🟢 IMatrix	📦 否
Codestral-22B-v0.1-hf.Q4_K_S.gguf	Q4_K_S	12.66GB	✅ 可获取	🟢 IMatrix	📦 否
Codestral-22B-v0.1-hf.IQ4_NL.gguf	IQ4_NL	12.61GB	✅ 可获取	🟢 IMatrix	📦 否
Codestral-22B-v0.1-hf.IQ4_XS.gguf	IQ4_XS	11.94GB	✅ 可获取	🟢 IMatrix	📦 否
Codestral-22B-v0.1-hf.Q3_K.gguf	Q3_K	10.76GB	✅ 可获取	🟢 IMatrix	📦 否
Codestral-22B-v0.1-hf.Q3_K_L.gguf	Q3_K_L	11.73GB	✅ 可获取	🟢 IMatrix	📦 否
Codestral-22B-v0.1-hf.Q3_K_S.gguf	Q3_K_S	9.64GB	✅ 可获取	🟢 IMatrix	📦 否
Codestral-22B-v0.1-hf.IQ3_M.gguf	IQ3_M	10.06GB	✅ 可获取	🟢 IMatrix	📦 否
Codestral-22B-v0.1-hf.IQ3_S.gguf	IQ3_S	9.69GB	✅ 可获取	🟢 IMatrix	📦 否
Codestral-22B-v0.1-hf.IQ3_XS.gguf	IQ3_XS	9.18GB	✅ 可获取	🟢 IMatrix	📦 否
Codestral-22B-v0.1-hf.IQ3_XXS.gguf	IQ3_XXS	8.60GB	✅ 可获取	🟢 IMatrix	📦 否
Codestral-22B-v0.1-hf.Q2_K.gguf	Q2_K	8.27GB	✅ 可获取	🟢 IMatrix	📦 否
Codestral-22B-v0.1-hf.Q2_K_S.gguf	Q2_K_S	7.65GB	✅ 可获取	🟢 IMatrix	📦 否
Codestral-22B-v0.1-hf.IQ2_M.gguf	IQ2_M	7.62GB	✅ 可获取	🟢 IMatrix	📦 否
Codestral-22B-v0.1-hf.IQ2_S.gguf	IQ2_S	7.04GB	✅ 可获取	🟢 IMatrix	📦 否
Codestral-22B-v0.1-hf.IQ2_XS.gguf	IQ2_XS	6.65GB	✅ 可获取	🟢 IMatrix	📦 否
Codestral-22B-v0.1-hf.IQ2_XXS.gguf	IQ2_XXS	6.00GB	✅ 可获取	🟢 IMatrix	📦 否
Codestral-22B-v0.1-hf.IQ1_M.gguf	IQ1_M	5.27GB	✅ 可获取	🟢 IMatrix	📦 否
Codestral-22B-v0.1-hf.IQ1_S.gguf	IQ1_S	4.83GB	✅ 可获取	🟢 IMatrix	📦 否

使用huggingface-cli下载

如果您尚未安装huggingface-cli：

pip install -U "huggingface_hub[cli]"

下载您需要的特定文件：

huggingface-cli download legraphista/Codestral-22B-v0.1-hf-IMat-GGUF --include "Codestral-22B-v0.1-hf.Q8_0.gguf" --local-dir ./

如果模型文件较大，它会被分割成多个文件。要将所有文件下载到本地文件夹，请运行：

huggingface-cli download legraphista/Codestral-22B-v0.1-hf-IMat-GGUF --include "Codestral-22B-v0.1-hf.Q8_0/*" --local-dir ./
# see FAQ for merging GGUF's

推理

简单对话模板

<s>[INST] {user_prompt} [/INST] {assistant_response} </s><s>[INST] {new_user_prompt} [/INST]

带系统提示词的聊天模板

<s>[INST] <<SYS>>
{system_prompt}
<</SYS>>

{user_prompt} [/INST] {assistant_response} </s><s>[INST] {new_user_prompt} [/INST]

Llama.cpp

llama.cpp/main -m Codestral-22B-v0.1-hf.Q8_0.gguf --color -i -p "prompt here (according to the chat template)"

常见问题

为何未在所有地方应用IMatrix？

根据这项调查，似乎只有较低的量化版本能从imatrix输入中获益（根据hellaswag结果）。

如何合并分割的GGUF文件？

确保您已安装gguf-split
- 要获取gguf-split，请访问 https://github.com/ggerganov/llama.cpp/releases
- 从最新版本中下载适合您系统的压缩包
- 解压该压缩包，您应该能找到gguf-split
找到您的GGUF分块文件夹（例如：Codestral-22B-v0.1-hf.Q8_0）
运行 gguf-split --merge Codestral-22B-v0.1-hf.Q8_0/Codestral-22B-v0.1-hf.Q8_0-00001-of-XXXXX.gguf Codestral-22B-v0.1-hf.Q8_0.gguf
- 确保将gguf-split指向分割文件的第一个分块。

有建议吗？请联系我 @legraphista！