原始模型:https://huggingface.co/01-ai/Yi-Coder-9B-Chat
所有量化版本均采用矩阵优化选项,数据集来源自此处
可在 LM Studio 中运行
<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
修复分词器
| 文件名 | 量化类型 | 文件大小 | 分片 | 描述 |
|---|---|---|---|---|
| Yi-Coder-9B-Chat-f16.gguf | f16 | 17.66GB | false | 完整F16权重 |
| Yi-Coder-9B-Chat-Q8_0.gguf | Q8_0 | 9.38GB | false | 极高品质,通常无需但为当前最高可用量化级别 |
| Yi-Coder-9B-Chat-Q6_K_L.gguf | Q6_K_L | 7.37GB | false | 嵌入层和输出层使用Q8_0量化。接近无损的高品质版本,推荐使用 |
| Yi-Coder-9B-Chat-Q6_K.gguf | Q6_K | 7.25GB | false | 接近无损的高品质版本,推荐使用 |
| Yi-Coder-9B-Chat-Q5_K_L.gguf | Q5_K_L | 6.42GB | false | 嵌入层和输出层使用Q8_0量化。高品质版本,推荐使用 |
| Yi-Coder-9B-Chat-Q5_K_M.gguf | Q5_K_M | 6.26GB | false | 高品质版本,推荐使用 |
| Yi-Coder-9B-Chat-Q5_K_S.gguf | Q5_K_S | 6.11GB | false | 高品质版本,推荐使用 |
| Yi-Coder-9B-Chat-Q4_K_L.gguf | Q4_K_L | 5.52GB | false | 嵌入层和输出层使用Q8_0量化。良好品质,推荐使用 |
| Yi-Coder-9B-Chat-Q4_K_M.gguf | Q4_K_M | 5.33GB | false | 良好品质,适用于多数场景的默认规格,推荐使用 |
| Yi-Coder-9B-Chat-Q4_K_S.gguf | Q4_K_S | 5.07GB | false | 质量略降但节省更多空间,推荐使用 |
| Yi-Coder-9B-Chat-Q4_0.gguf | Q4_0 | 5.05GB | false | 传统格式,通常不推荐使用(同规格下有更优选择) |
| Yi-Coder-9B-Chat-Q4_0_8_8.gguf | Q4_0_8_8 | 5.04GB | false | 针对ARM推理优化。需支持'sve'指令集(参见下方链接) |
| Yi-Coder-9B-Chat-Q4_0_4_8.gguf | Q4_0_4_8 | 5.04GB | false | 针对ARM推理优化。需支持'i8mm'指令集(参见下方链接) |
| Yi-Coder-9B-Chat-Q4_0_4_4.gguf | Q4_0_4_4 | 5.04GB | false | 针对ARM推理优化。兼容所有ARM芯片,不确定时请选此版本 |
| Yi-Coder-9B-Chat-Q3_K_XL.gguf | Q3_K_XL | 4.92GB | false | 嵌入层和输出层使用Q8_0量化。质量较低但可用,适合低内存环境 |
| Yi-Coder-9B-Chat-IQ4_XS.gguf | IQ4_XS | 4.79GB | false | 质量尚可,体积小于Q4_K_S且性能相近,推荐使用 |
| Yi-Coder-9B-Chat-Q3_K_L.gguf | Q3_K_L | 4.69GB | false | 质量较低但可用,适合低内存环境 |
| Yi-Coder-9B-Chat-Q3_K_M.gguf | Q3_K_M | 4.32GB | false | 质量较低 |
| Yi-Coder-9B-Chat-IQ3_M.gguf | IQ3_M | 4.06GB | false | 中低质量,新量化方法,性能与Q3_K_M相当 |
| Yi-Coder-9B-Chat-Q3_K_S.gguf | Q3_K_S | 3.90GB | false | 质量较低,不推荐使用 |
| Yi-Coder-9B-Chat-IQ3_XS.gguf | IQ3_XS | 3.72GB | false | 较低质量,新量化方法,性能略优于Q3_K_S |
| Yi-Coder-9B-Chat-Q2_K_L.gguf | Q2_K_L | 3.61GB | false | 嵌入层和输出层使用Q8_0量化。质量极低但意外可用 |
| Yi-Coder-9B-Chat-Q2_K.gguf | Q2_K | 3.35GB | false | 质量极低但意外可用 |
| Yi-Coder-9B-Chat-IQ2_M.gguf | IQ2_M | 3.10GB | false | 质量相对较低,采用前沿技术实现意外可用性 |
部分量化版本(如Q3_K_XL、Q4_K_L等)采用标准量化方法,但将嵌入层和输出层权重量化为Q8_0格式,而非默认的量化方案。
有用户反馈这种处理能提升模型质量,也有用户表示未察觉明显差异。如果您使用了这些模型,请务必分享您的测试结果。我们需要实际使用反馈来验证这些量化版本的价值,避免持续上传无人使用的量化文件。
感谢您的参与!
首先请确保已安装huggingface-cli工具:
pip install -U "huggingface_hub[cli]"然后,您可以定位到您想要的具体文件:
huggingface-cli download bartowski/Yi-Coder-9B-Chat-GGUF --include "Yi-Coder-9B-Chat-Q4_K_M.gguf" --local-dir ./如果模型大小超过50GB,它会被分割成多个文件。要将所有文件下载到本地文件夹,请运行:
huggingface-cli download bartowski/Yi-Coder-9B-Chat-GGUF --include "Yi-Coder-9B-Chat-Q8_0/*" --local-dir ./您可以选择指定一个新的本地目录(Yi-Coder-9B-Chat-Q8_0),或者直接全部下载到当前目录(./)
若使用ARM芯片,Q4_0_X_X量化版本将获得显著加速效果。具体速度对比可查阅原始拉取请求中的Q4_0_4_4性能数据。
要确定最适合您ARM芯片的版本,可参考AArch64 SoC特性表(感谢EloyOn的贡献!)
Artefact2提供了包含多维度性能图表的详细说明,请参阅此文档
首先需要确定可运行的模型规模。您需要计算可用RAM和/或VRAM的总容量。
若追求极致运行速度,建议将整个模型加载至GPU的VRAM中。选择比GPU总VRAM容量小1-2GB的量化版本。
若追求最高质量输出,可将系统RAM与GPU的VRAM容量相加,同样选择比总容量小1-2GB的量化版本。
接下来需要决定使用"I-quant"还是"K-quant"。
若不想深入研究,直接选择K-quant版本即可(格式为'QX_K_X',例如Q5_K_M)。
如需深入了解,可参考以下特性对照表:
简而言之,若目标量化等级低于Q4,且使用cuBLAS(英伟达)或rocBLAS(AMD)运算后端,建议选择I-quant版本(格式为IQX_X,例如IQ3_M)。这些新版量化方案在相同体积下能提供更优性能。
I-quant版本也可在CPU和Apple Metal上运行,但速度会低于对应的K-quant版本,需要在速度与性能之间进行权衡。
请注意:I-quant版本与Vulcan(同样适用于AMD)不兼容。若使用AMD显卡,请确认使用的是rocBLAS构建版还是Vulcan构建版。截至本文撰写时,LM Studio已推出支持ROCm的预览版,其他推理引擎也提供了专门的ROCm构建版本。
感谢 kalomaze 和 Dampf 在创建 imatrix 校准数据集过程中提供的协助
感谢 ZeroWw 在 embed/output 实验方面给予的灵感启发
想要支持我的工作?请访问我的 ko-fi 页面:https://ko-fi.com/bartowski