Yi-Coder-9B-Chat-GGUF:使用llama.cpp b3658版本量化的Yi-Coder-9B-Chat模型，提供多种量化类型，可在LM Studio运行，修复了tokenizer问题，适用于不同性能需求场景。【此简介由AI生成】

Yi-Coder-9B-Chat 的 Llamacpp 矩阵量化版本

使用 llama.cpp 版本 b3658 进行量化。

原始模型：https://huggingface.co/01-ai/Yi-Coder-9B-Chat

所有量化版本均采用矩阵优化选项，数据集来源自此处

可在 LM Studio 中运行

提示词格式

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

更新内容：

修复分词器

从下方下载单个文件（非完整分支）：

文件名	量化类型	文件大小	分片	描述
Yi-Coder-9B-Chat-f16.gguf	f16	17.66GB	false	完整F16权重
Yi-Coder-9B-Chat-Q8_0.gguf	Q8_0	9.38GB	false	极高品质，通常无需但为当前最高可用量化级别
Yi-Coder-9B-Chat-Q6_K_L.gguf	Q6_K_L	7.37GB	false	嵌入层和输出层使用Q8_0量化。接近无损的高品质版本，推荐使用
Yi-Coder-9B-Chat-Q6_K.gguf	Q6_K	7.25GB	false	接近无损的高品质版本，推荐使用
Yi-Coder-9B-Chat-Q5_K_L.gguf	Q5_K_L	6.42GB	false	嵌入层和输出层使用Q8_0量化。高品质版本，推荐使用
Yi-Coder-9B-Chat-Q5_K_M.gguf	Q5_K_M	6.26GB	false	高品质版本，推荐使用
Yi-Coder-9B-Chat-Q5_K_S.gguf	Q5_K_S	6.11GB	false	高品质版本，推荐使用
Yi-Coder-9B-Chat-Q4_K_L.gguf	Q4_K_L	5.52GB	false	嵌入层和输出层使用Q8_0量化。良好品质，推荐使用
Yi-Coder-9B-Chat-Q4_K_M.gguf	Q4_K_M	5.33GB	false	良好品质，适用于多数场景的默认规格，推荐使用
Yi-Coder-9B-Chat-Q4_K_S.gguf	Q4_K_S	5.07GB	false	质量略降但节省更多空间，推荐使用
Yi-Coder-9B-Chat-Q4_0.gguf	Q4_0	5.05GB	false	传统格式，通常不推荐使用（同规格下有更优选择）
Yi-Coder-9B-Chat-Q4_0_8_8.gguf	Q4_0_8_8	5.04GB	false	针对ARM推理优化。需支持'sve'指令集（参见下方链接）
Yi-Coder-9B-Chat-Q4_0_4_8.gguf	Q4_0_4_8	5.04GB	false	针对ARM推理优化。需支持'i8mm'指令集（参见下方链接）
Yi-Coder-9B-Chat-Q4_0_4_4.gguf	Q4_0_4_4	5.04GB	false	针对ARM推理优化。兼容所有ARM芯片，不确定时请选此版本
Yi-Coder-9B-Chat-Q3_K_XL.gguf	Q3_K_XL	4.92GB	false	嵌入层和输出层使用Q8_0量化。质量较低但可用，适合低内存环境
Yi-Coder-9B-Chat-IQ4_XS.gguf	IQ4_XS	4.79GB	false	质量尚可，体积小于Q4_K_S且性能相近，推荐使用
Yi-Coder-9B-Chat-Q3_K_L.gguf	Q3_K_L	4.69GB	false	质量较低但可用，适合低内存环境
Yi-Coder-9B-Chat-Q3_K_M.gguf	Q3_K_M	4.32GB	false	质量较低
Yi-Coder-9B-Chat-IQ3_M.gguf	IQ3_M	4.06GB	false	中低质量，新量化方法，性能与Q3_K_M相当
Yi-Coder-9B-Chat-Q3_K_S.gguf	Q3_K_S	3.90GB	false	质量较低，不推荐使用
Yi-Coder-9B-Chat-IQ3_XS.gguf	IQ3_XS	3.72GB	false	较低质量，新量化方法，性能略优于Q3_K_S
Yi-Coder-9B-Chat-Q2_K_L.gguf	Q2_K_L	3.61GB	false	嵌入层和输出层使用Q8_0量化。质量极低但意外可用
Yi-Coder-9B-Chat-Q2_K.gguf	Q2_K	3.35GB	false	质量极低但意外可用
Yi-Coder-9B-Chat-IQ2_M.gguf	IQ2_M	3.10GB	false	质量相对较低，采用前沿技术实现意外可用性

嵌入层/输出层权重量化说明

部分量化版本（如Q3_K_XL、Q4_K_L等）采用标准量化方法，但将嵌入层和输出层权重量化为Q8_0格式，而非默认的量化方案。

有用户反馈这种处理能提升模型质量，也有用户表示未察觉明显差异。如果您使用了这些模型，请务必分享您的测试结果。我们需要实际使用反馈来验证这些量化版本的价值，避免持续上传无人使用的量化文件。

感谢您的参与！

使用huggingface-cli下载

首先请确保已安装huggingface-cli工具：

pip install -U "huggingface_hub[cli]"

然后，您可以定位到您想要的具体文件：

huggingface-cli download bartowski/Yi-Coder-9B-Chat-GGUF --include "Yi-Coder-9B-Chat-Q4_K_M.gguf" --local-dir ./

如果模型大小超过50GB，它会被分割成多个文件。要将所有文件下载到本地文件夹，请运行：

huggingface-cli download bartowski/Yi-Coder-9B-Chat-GGUF --include "Yi-Coder-9B-Chat-Q8_0/*" --local-dir ./

您可以选择指定一个新的本地目录（Yi-Coder-9B-Chat-Q8_0），或者直接全部下载到当前目录（./）

Q4_0_X_X

若使用ARM芯片，Q4_0_X_X量化版本将获得显著加速效果。具体速度对比可查阅原始拉取请求中的Q4_0_4_4性能数据。

要确定最适合您ARM芯片的版本，可参考AArch64 SoC特性表（感谢EloyOn的贡献！）

如何选择文件？

Artefact2提供了包含多维度性能图表的详细说明，请参阅此文档

首先需要确定可运行的模型规模。您需要计算可用RAM和/或VRAM的总容量。

若追求极致运行速度，建议将整个模型加载至GPU的VRAM中。选择比GPU总VRAM容量小1-2GB的量化版本。

若追求最高质量输出，可将系统RAM与GPU的VRAM容量相加，同样选择比总容量小1-2GB的量化版本。

接下来需要决定使用"I-quant"还是"K-quant"。

若不想深入研究，直接选择K-quant版本即可（格式为'QX_K_X'，例如Q5_K_M）。

如需深入了解，可参考以下特性对照表：

llama.cpp功能矩阵

简而言之，若目标量化等级低于Q4，且使用cuBLAS（英伟达）或rocBLAS（AMD）运算后端，建议选择I-quant版本（格式为IQX_X，例如IQ3_M）。这些新版量化方案在相同体积下能提供更优性能。

I-quant版本也可在CPU和Apple Metal上运行，但速度会低于对应的K-quant版本，需要在速度与性能之间进行权衡。

请注意：I-quant版本与Vulcan（同样适用于AMD）不兼容。若使用AMD显卡，请确认使用的是rocBLAS构建版还是Vulcan构建版。截至本文撰写时，LM Studio已推出支持ROCm的预览版，其他推理引擎也提供了专门的ROCm构建版本。

鸣谢

感谢 kalomaze 和 Dampf 在创建 imatrix 校准数据集过程中提供的协助

感谢 ZeroWw 在 embed/output 实验方面给予的灵感启发

想要支持我的工作？请访问我的 ko-fi 页面：https://ko-fi.com/bartowski