![]()
采用TQ3_4S并结合混合精度MoE压缩对Qwen/Qwen3.6-35B-A3B进行的GGUF量化——2位专家,4位注意力。
| 文件 | 说明 |
|---|---|
Qwen3.6-35B-A3B-TQ3_4S.gguf | 主模型(12.4 GiB,3.07 BPW) |
mmproj-BF16.gguf | 多模态投影器(BF16) |
MoE专家可承受深度压缩,因为每个token仅激活256个专家中的8个。本量化利用这一不对称特性:
| 组件 | 量化方式 | 原理 |
|---|---|---|
| 专家MLP门控/上采样 | Q2_K | 占参数的98%,MoE容错 |
| 专家MLP下采样 | Q3_K | 写回敏感性 |
| 注意力Q/K/V/O | TQ3_4S | WHT保护 |
| 嵌入层+输出层 | Q6_K | 质量锚点 |
该模型需要公开的TurboQuant运行时分支:
./build/bin/llama-server \
-m Qwen3.6-35B-A3B-TQ3_4S.gguf \
-ngl 99 -c 4096 -np 1 \
-ctk q4_0 -ctv tq3_0 -fa on \
--jinja \
--reasoning off --reasoning-budget 0 --reasoning-format deepseek具备视觉能力:
./build/bin/llama-server \
-m Qwen3.6-35B-A3B-TQ3_4S.gguf \
--mmproj mmproj-BF16.gguf \
-ngl 99 -c 4096 -np 1 \
-ctk q4_0 -ctv tq3_0 -fa on \
--jinja --no-mmproj-offload \
--reasoning off --reasoning-budget 0 --reasoning-format deepseek| 指标 | 数值 |
|---|---|
| PP512 | 1832 tok/s |
| TG128 | 107 tok/s |
| 模型大小 | 12.4 GiB |
| 每权重比特数(BPW) | 3.07 |
| 显卡层数量(ngl) | 99(完全使用GPU) |
可完全容纳于16GB显存中——无需CPU卸载。
在标准问答基准测试中正确率达10/10(法国首都、2+2、Python字符串反转、重力、二战、质数、沸点、莎士比亚、木星、hello→Hola)。
Qwen/Qwen3.6-35B-A3Bunsloth/Qwen3.6-35B-A3B-GGUF(Q8_0版本)Apache 2.0——与基础模型相同。
已使用--jinja参数在--reasoning off和--reasoning on --reasoning-budget 2048两种模式下进行测试:
| 测试项 | reasoning off | reasoning on |
|---|---|---|
| 基础工具调用触发 | ✅ | ✅ |
| 工具响应→最终答案(无循环) | ✅ | ✅ |
| 多选项中正确选择工具 | ✅ | ✅ |
| 简单问题无需工具调用 | ✅ | ✅ |
| 多步骤工具使用 | ✅ | ✅ |
| 嵌套引号转义重试(无循环) | ✅ | ✅ |
| 总计 | 10/10 | 10/10 |
--jinja --reasoning off --reasoning-budget 0 --reasoning-format deepseek在工具调用场景中,避免将--presence-penalty设置为0.5以上——较高的值会增加推理标记的多样性,但不会改善结构化JSON输出,还可能导致智能体循环中出现重复的近乎相同的工具调用。
如果使用--reasoning on,请确保您的智能体框架能够检测连续的相同工具调用,并在2-3次重试后终止循环。
chmod +x test_tool_calls.sh
./test_tool_calls.sh 8085