HuggingFace镜像/Qwen3.6-35B-A3B-TQ3_4S
模型介绍文件和版本分析
下载使用量0

thumbnail

Qwen3.6-35B-A3B-TQ3_4S

采用TQ3_4S并结合混合精度MoE压缩对Qwen/Qwen3.6-35B-A3B进行的GGUF量化——2位专家,4位注意力。

文件

文件说明
Qwen3.6-35B-A3B-TQ3_4S.gguf主模型(12.4 GiB,3.07 BPW)
mmproj-BF16.gguf多模态投影器(BF16)

量化

MoE专家可承受深度压缩,因为每个token仅激活256个专家中的8个。本量化利用这一不对称特性:

组件量化方式原理
专家MLP门控/上采样Q2_K占参数的98%,MoE容错
专家MLP下采样Q3_K写回敏感性
注意力Q/K/V/OTQ3_4SWHT保护
嵌入层+输出层Q6_K质量锚点

运行时要求

该模型需要公开的TurboQuant运行时分支:

  • https://github.com/turbo-tan/llama.cpp-tq3

推荐设置(16GB VRAM)

./build/bin/llama-server \
  -m Qwen3.6-35B-A3B-TQ3_4S.gguf \
  -ngl 99 -c 4096 -np 1 \
  -ctk q4_0 -ctv tq3_0 -fa on \
  --jinja \
  --reasoning off --reasoning-budget 0 --reasoning-format deepseek

具备视觉能力:

./build/bin/llama-server \
  -m Qwen3.6-35B-A3B-TQ3_4S.gguf \
  --mmproj mmproj-BF16.gguf \
  -ngl 99 -c 4096 -np 1 \
  -ctk q4_0 -ctv tq3_0 -fa on \
  --jinja --no-mmproj-offload \
  --reasoning off --reasoning-budget 0 --reasoning-format deepseek

性能表现(RTX 5060 Ti 16GB)

指标数值
PP5121832 tok/s
TG128107 tok/s
模型大小12.4 GiB
每权重比特数(BPW)3.07
显卡层数量(ngl)99(完全使用GPU)

可完全容纳于16GB显存中——无需CPU卸载。

质量评估

在标准问答基准测试中正确率达10/10(法国首都、2+2、Python字符串反转、重力、二战、质数、沸点、莎士比亚、木星、hello→Hola)。

基础模型

  • Qwen/Qwen3.6-35B-A3B
  • 来源:unsloth/Qwen3.6-35B-A3B-GGUF(Q8_0版本)

许可证

Apache 2.0——与基础模型相同。

工具调用验证

已使用--jinja参数在--reasoning off和--reasoning on --reasoning-budget 2048两种模式下进行测试:

测试项reasoning offreasoning on
基础工具调用触发✅✅
工具响应→最终答案(无循环)✅✅
多选项中正确选择工具✅✅
简单问题无需工具调用✅✅
多步骤工具使用✅✅
嵌套引号转义重试(无循环)✅✅
总计10/1010/10

工具使用/智能体工作流推荐设置

--jinja --reasoning off --reasoning-budget 0 --reasoning-format deepseek

在工具调用场景中,避免将--presence-penalty设置为0.5以上——较高的值会增加推理标记的多样性,但不会改善结构化JSON输出,还可能导致智能体循环中出现重复的近乎相同的工具调用。

如果使用--reasoning on,请确保您的智能体框架能够检测连续的相同工具调用,并在2-3次重试后终止循环。

自行运行测试

chmod +x test_tool_calls.sh
./test_tool_calls.sh 8085