
kai-os/carnice-v2-27b的GGUF格式导出文件,这是基于Qwen/Qwen3.6-27B进行的BF16精度SFT模型合并,专为Hermes风格的智能体追踪设计。
| 文件 | 大小级别 | 用途 |
|---|---|---|
carnice-v2-27b-IQ2_M.gguf | 9.4GB | 16GB显存GPU的最佳选择。采用Carnice/Hermes imatrix校准流程构建。 |
carnice-v2-27b-Q2_K.gguf | 10GB | 16GB显存GPU的最安全备选方案。兼容性优于IQ量化版本,但质量低于imatrix校准的IQ2_M。 |
carnice-v2-27b-Q4_K_M.gguf | 16GB | 本地使用的平衡质量级别。在16GB显存GPU上可能需要缩短上下文长度或部分CPU卸载。 |
carnice-v2-27b-Q5_K_M.gguf | 18GB | 适用于24GB及以上显存GPU或采用拆分/卸载配置的更高质量级别。 |
carnice-v2-27b-Q8_0.gguf | 27GB | 近无损量化级别,适用于高内存系统。 |
carnice-v2-27b-bf16.gguf | 51GB | 完整的BF16精度GGUF导出文件。 |
对于16GB显存的GPU,如果您的运行时支持IQ量化以及此Qwen3.5/Qwen3.6 GGUF架构,建议从IQ2_M开始尝试。如果运行时版本较旧或无法加载IQ量化文件,请使用Q2_K。

| 指标 | Qwen3.6-27B 基础模型 | Carnice SFT模型 |
|---|---|---|
| IFEval prompt strict, limit 20 | 85.0% | 90.0% |
| IFEval prompt loose, limit 20 | 85.0% | 90.0% |
| IFEval instruction strict, limit 20 | 90.0% | 93.3% |
| IFEval instruction loose, limit 20 | 90.0% | 93.3% |
| 保留的assistant-token评估损失 | 0.607 | 0.414 |
| 保留的assistant-token评估困惑度 | 1.835 | 1.513 |
范围说明:这些是源SFT模型的检查结果,而非单独的GGUF量化版本的基准测试分数。完整的基准测试工件包位于合并模型仓库:kai-os/carnice-v2-27b。
此模型转换为具有混合注意力/SSM层的qwen35 GGUF格式。请使用最新的llama.cpp构建版本;较旧的GGUF运行时可能尚不支持此架构。
示例:
llama-cli \
-m carnice-v2-27b-Q2_K.gguf \
-ngl all \
-c 8192 \
-p "Write a short plan for a Hermes agent debugging a failing tool call."在 16GB 内存环境下处理长上下文时,应降低权重量化等级并积极调整 KV 缓存。文件能够装入 VRAM 并不意味着 128K 上下文也能同时容纳。