HuggingFace镜像/Yi-Coder-9B-Chat-GGUF
模型介绍文件和版本分析
下载使用量0

Yi-Coder-9B-Chat 的 Llamacpp 矩阵量化版本

使用 llama.cpp 版本 b3658 进行量化。

原始模型:https://huggingface.co/01-ai/Yi-Coder-9B-Chat

所有量化版本均采用矩阵优化选项,数据集来源自此处

可在 LM Studio 中运行

提示词格式

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

更新内容:

修复分词器

从下方下载单个文件(非完整分支):

文件名量化类型文件大小分片描述
Yi-Coder-9B-Chat-f16.gguff1617.66GBfalse完整F16权重
Yi-Coder-9B-Chat-Q8_0.ggufQ8_09.38GBfalse极高品质,通常无需但为当前最高可用量化级别
Yi-Coder-9B-Chat-Q6_K_L.ggufQ6_K_L7.37GBfalse嵌入层和输出层使用Q8_0量化。接近无损的高品质版本,推荐使用
Yi-Coder-9B-Chat-Q6_K.ggufQ6_K7.25GBfalse接近无损的高品质版本,推荐使用
Yi-Coder-9B-Chat-Q5_K_L.ggufQ5_K_L6.42GBfalse嵌入层和输出层使用Q8_0量化。高品质版本,推荐使用
Yi-Coder-9B-Chat-Q5_K_M.ggufQ5_K_M6.26GBfalse高品质版本,推荐使用
Yi-Coder-9B-Chat-Q5_K_S.ggufQ5_K_S6.11GBfalse高品质版本,推荐使用
Yi-Coder-9B-Chat-Q4_K_L.ggufQ4_K_L5.52GBfalse嵌入层和输出层使用Q8_0量化。良好品质,推荐使用
Yi-Coder-9B-Chat-Q4_K_M.ggufQ4_K_M5.33GBfalse良好品质,适用于多数场景的默认规格,推荐使用
Yi-Coder-9B-Chat-Q4_K_S.ggufQ4_K_S5.07GBfalse质量略降但节省更多空间,推荐使用
Yi-Coder-9B-Chat-Q4_0.ggufQ4_05.05GBfalse传统格式,通常不推荐使用(同规格下有更优选择)
Yi-Coder-9B-Chat-Q4_0_8_8.ggufQ4_0_8_85.04GBfalse针对ARM推理优化。需支持'sve'指令集(参见下方链接)
Yi-Coder-9B-Chat-Q4_0_4_8.ggufQ4_0_4_85.04GBfalse针对ARM推理优化。需支持'i8mm'指令集(参见下方链接)
Yi-Coder-9B-Chat-Q4_0_4_4.ggufQ4_0_4_45.04GBfalse针对ARM推理优化。兼容所有ARM芯片,不确定时请选此版本
Yi-Coder-9B-Chat-Q3_K_XL.ggufQ3_K_XL4.92GBfalse嵌入层和输出层使用Q8_0量化。质量较低但可用,适合低内存环境
Yi-Coder-9B-Chat-IQ4_XS.ggufIQ4_XS4.79GBfalse质量尚可,体积小于Q4_K_S且性能相近,推荐使用
Yi-Coder-9B-Chat-Q3_K_L.ggufQ3_K_L4.69GBfalse质量较低但可用,适合低内存环境
Yi-Coder-9B-Chat-Q3_K_M.ggufQ3_K_M4.32GBfalse质量较低
Yi-Coder-9B-Chat-IQ3_M.ggufIQ3_M4.06GBfalse中低质量,新量化方法,性能与Q3_K_M相当
Yi-Coder-9B-Chat-Q3_K_S.ggufQ3_K_S3.90GBfalse质量较低,不推荐使用
Yi-Coder-9B-Chat-IQ3_XS.ggufIQ3_XS3.72GBfalse较低质量,新量化方法,性能略优于Q3_K_S
Yi-Coder-9B-Chat-Q2_K_L.ggufQ2_K_L3.61GBfalse嵌入层和输出层使用Q8_0量化。质量极低但意外可用
Yi-Coder-9B-Chat-Q2_K.ggufQ2_K3.35GBfalse质量极低但意外可用
Yi-Coder-9B-Chat-IQ2_M.ggufIQ2_M3.10GBfalse质量相对较低,采用前沿技术实现意外可用性

嵌入层/输出层权重量化说明

部分量化版本(如Q3_K_XL、Q4_K_L等)采用标准量化方法,但将嵌入层和输出层权重量化为Q8_0格式,而非默认的量化方案。

有用户反馈这种处理能提升模型质量,也有用户表示未察觉明显差异。如果您使用了这些模型,请务必分享您的测试结果。我们需要实际使用反馈来验证这些量化版本的价值,避免持续上传无人使用的量化文件。

感谢您的参与!

使用huggingface-cli下载

首先请确保已安装huggingface-cli工具:

pip install -U "huggingface_hub[cli]"

然后,您可以定位到您想要的具体文件:

huggingface-cli download bartowski/Yi-Coder-9B-Chat-GGUF --include "Yi-Coder-9B-Chat-Q4_K_M.gguf" --local-dir ./

如果模型大小超过50GB,它会被分割成多个文件。要将所有文件下载到本地文件夹,请运行:

huggingface-cli download bartowski/Yi-Coder-9B-Chat-GGUF --include "Yi-Coder-9B-Chat-Q8_0/*" --local-dir ./

您可以选择指定一个新的本地目录(Yi-Coder-9B-Chat-Q8_0),或者直接全部下载到当前目录(./)

Q4_0_X_X

若使用ARM芯片,Q4_0_X_X量化版本将获得显著加速效果。具体速度对比可查阅原始拉取请求中的Q4_0_4_4性能数据。

要确定最适合您ARM芯片的版本,可参考AArch64 SoC特性表(感谢EloyOn的贡献!)

如何选择文件?

Artefact2提供了包含多维度性能图表的详细说明,请参阅此文档

首先需要确定可运行的模型规模。您需要计算可用RAM和/或VRAM的总容量。

若追求极致运行速度,建议将整个模型加载至GPU的VRAM中。选择比GPU总VRAM容量小1-2GB的量化版本。

若追求最高质量输出,可将系统RAM与GPU的VRAM容量相加,同样选择比总容量小1-2GB的量化版本。

接下来需要决定使用"I-quant"还是"K-quant"。

若不想深入研究,直接选择K-quant版本即可(格式为'QX_K_X',例如Q5_K_M)。

如需深入了解,可参考以下特性对照表:

llama.cpp功能矩阵

简而言之,若目标量化等级低于Q4,且使用cuBLAS(英伟达)或rocBLAS(AMD)运算后端,建议选择I-quant版本(格式为IQX_X,例如IQ3_M)。这些新版量化方案在相同体积下能提供更优性能。

I-quant版本也可在CPU和Apple Metal上运行,但速度会低于对应的K-quant版本,需要在速度与性能之间进行权衡。

请注意:I-quant版本与Vulcan(同样适用于AMD)不兼容。若使用AMD显卡,请确认使用的是rocBLAS构建版还是Vulcan构建版。截至本文撰写时,LM Studio已推出支持ROCm的预览版,其他推理引擎也提供了专门的ROCm构建版本。

鸣谢

感谢 kalomaze 和 Dampf 在创建 imatrix 校准数据集过程中提供的协助

感谢 ZeroWw 在 embed/output 实验方面给予的灵感启发

想要支持我的工作?请访问我的 ko-fi 页面:https://ko-fi.com/bartowski