Carnice V2 27B

Carnice-V2-27B GGUF

kai-os/carnice-v2-27b的GGUF格式导出文件，这是基于Qwen/Qwen3.6-27B进行的BF16精度SFT模型合并，专为Hermes风格的智能体追踪设计。

推荐文件

文件	大小级别	用途
`carnice-v2-27b-IQ2_M.gguf`	9.4GB	16GB显存GPU的最佳选择。采用Carnice/Hermes imatrix校准流程构建。
`carnice-v2-27b-Q2_K.gguf`	10GB	16GB显存GPU的最安全备选方案。兼容性优于IQ量化版本，但质量低于imatrix校准的IQ2_M。
`carnice-v2-27b-Q4_K_M.gguf`	16GB	本地使用的平衡质量级别。在16GB显存GPU上可能需要缩短上下文长度或部分CPU卸载。
`carnice-v2-27b-Q5_K_M.gguf`	18GB	适用于24GB及以上显存GPU或采用拆分/卸载配置的更高质量级别。
`carnice-v2-27b-Q8_0.gguf`	27GB	近无损量化级别，适用于高内存系统。
`carnice-v2-27b-bf16.gguf`	51GB	完整的BF16精度GGUF导出文件。

对于16GB显存的GPU，如果您的运行时支持IQ量化以及此Qwen3.5/Qwen3.6 GGUF架构，建议从IQ2_M开始尝试。如果运行时版本较旧或无法加载IQ量化文件，请使用Q2_K。

Carnice V2 benchmark card

指标	Qwen3.6-27B 基础模型	Carnice SFT模型
IFEval prompt strict, limit 20	85.0%	90.0%
IFEval prompt loose, limit 20	85.0%	90.0%
IFEval instruction strict, limit 20	90.0%	93.3%
IFEval instruction loose, limit 20	90.0%	93.3%
保留的assistant-token评估损失	0.607	0.414
保留的assistant-token评估困惑度	1.835	1.513

范围说明：这些是源SFT模型的检查结果，而非单独的GGUF量化版本的基准测试分数。完整的基准测试工件包位于合并模型仓库：kai-os/carnice-v2-27b。

此模型转换为具有混合注意力/SSM层的qwen35 GGUF格式。请使用最新的llama.cpp构建版本；较旧的GGUF运行时可能尚不支持此架构。

示例：

llama-cli \
  -m carnice-v2-27b-Q2_K.gguf \
  -ngl all \
  -c 8192 \
  -p "Write a short plan for a Hermes agent debugging a failing tool call."

在 16GB 内存环境下处理长上下文时，应降低权重量化等级并积极调整 KV 缓存。文件能够装入 VRAM 并不意味着 128K 上下文也能同时容纳。

推荐文件

文件	大小级别	用途
`carnice-v2-27b-IQ2_M.gguf`	9.4GB	16GB显存GPU的最佳选择。采用Carnice/Hermes imatrix校准流程构建。
`carnice-v2-27b-Q2_K.gguf`	10GB	16GB显存GPU的最安全备选方案。兼容性优于IQ量化版本，但质量低于imatrix校准的IQ2_M。
`carnice-v2-27b-Q4_K_M.gguf`	16GB	本地使用的平衡质量级别。在16GB显存GPU上可能需要缩短上下文长度或部分CPU卸载。
`carnice-v2-27b-Q5_K_M.gguf`	18GB	适用于24GB及以上显存GPU或采用拆分/卸载配置的更高质量级别。
`carnice-v2-27b-Q8_0.gguf`	27GB	近无损量化级别，适用于高内存系统。
`carnice-v2-27b-bf16.gguf`	51GB	完整的BF16精度GGUF导出文件。

源SFT模型的基准测试

指标	Qwen3.6-27B 基础模型	Carnice SFT模型
IFEval prompt strict, limit 20	85.0%	90.0%
IFEval prompt loose, limit 20	85.0%	90.0%
IFEval instruction strict, limit 20	90.0%	93.3%
IFEval instruction loose, limit 20	90.0%	93.3%
保留的assistant-token评估损失	0.607	0.414
保留的assistant-token评估困惑度	1.835	1.513

范围说明：这些是源SFT模型的检查结果，而非单独的GGUF量化版本的基准测试分数。完整的基准测试工件包位于合并模型仓库：kai-os/carnice-v2-27b。

运行时注意事项

此模型转换为具有混合注意力/SSM层的qwen35 GGUF格式。请使用最新的llama.cpp构建版本；较旧的GGUF运行时可能尚不支持此架构。

示例：

llama-cli \
  -m carnice-v2-27b-Q2_K.gguf \
  -ngl all \
  -c 8192 \
  -p "Write a short plan for a Hermes agent debugging a failing tool call."

在 16GB 内存环境下处理长上下文时，应降低权重量化等级并积极调整 KV 缓存。文件能够装入 VRAM 并不意味着 128K 上下文也能同时容纳。