Qwen3.6-35B-A3B-TQ3_4S

采用TQ3_4S并结合混合精度MoE压缩对Qwen/Qwen3.6-35B-A3B进行的GGUF量化——2位专家，4位注意力。

文件

文件	说明
`Qwen3.6-35B-A3B-TQ3_4S.gguf`	主模型（12.4 GiB，3.07 BPW）
`mmproj-BF16.gguf`	多模态投影器（BF16）

量化

MoE专家可承受深度压缩，因为每个token仅激活256个专家中的8个。本量化利用这一不对称特性：

组件	量化方式	原理
专家MLP门控/上采样	Q2_K	占参数的98%，MoE容错
专家MLP下采样	Q3_K	写回敏感性
注意力Q/K/V/O	TQ3_4S	WHT保护
嵌入层+输出层	Q6_K	质量锚点

运行时要求

该模型需要公开的TurboQuant运行时分支：

https://github.com/turbo-tan/llama.cpp-tq3

性能表现（RTX 5060 Ti 16GB）

指标	数值
PP512	1832 tok/s
TG128	107 tok/s
模型大小	12.4 GiB
每权重比特数（BPW）	3.07
显卡层数量（ngl）	99（完全使用GPU）

可完全容纳于16GB显存中——无需CPU卸载。

质量评估

在标准问答基准测试中正确率达10/10（法国首都、2+2、Python字符串反转、重力、二战、质数、沸点、莎士比亚、木星、hello→Hola）。

基础模型

Qwen/Qwen3.6-35B-A3B
来源：unsloth/Qwen3.6-35B-A3B-GGUF（Q8_0版本）

许可证

Apache 2.0——与基础模型相同。

工具调用验证

已使用--jinja参数在--reasoning off和--reasoning on --reasoning-budget 2048两种模式下进行测试：

测试项	reasoning off	reasoning on
基础工具调用触发	✅	✅
工具响应→最终答案（无循环）	✅	✅
多选项中正确选择工具	✅	✅
简单问题无需工具调用	✅	✅
多步骤工具使用	✅	✅
嵌套引号转义重试（无循环）	✅	✅
总计	10/10	10/10

工具使用/智能体工作流推荐设置

--jinja --reasoning off --reasoning-budget 0 --reasoning-format deepseek

在工具调用场景中，避免将--presence-penalty设置为0.5以上——较高的值会增加推理标记的多样性，但不会改善结构化JSON输出，还可能导致智能体循环中出现重复的近乎相同的工具调用。

如果使用--reasoning on，请确保您的智能体框架能够检测连续的相同工具调用，并在2-3次重试后终止循环。

自行运行测试

chmod +x test_tool_calls.sh
./test_tool_calls.sh 8085

Qwen3.6-35B-A3B-TQ3_4S

采用TQ3_4S并结合混合精度MoE压缩对Qwen/Qwen3.6-35B-A3B进行的GGUF量化——2位专家，4位注意力。

文件

文件	说明
`Qwen3.6-35B-A3B-TQ3_4S.gguf`	主模型（12.4 GiB，3.07 BPW）
`mmproj-BF16.gguf`	多模态投影器（BF16）

量化

MoE专家可承受深度压缩，因为每个token仅激活256个专家中的8个。本量化利用这一不对称特性：

组件	量化方式	原理
专家MLP门控/上采样	Q2_K	占参数的98%，MoE容错
专家MLP下采样	Q3_K	写回敏感性
注意力Q/K/V/O	TQ3_4S	WHT保护
嵌入层+输出层	Q6_K	质量锚点

运行时要求

该模型需要公开的TurboQuant运行时分支：

https://github.com/turbo-tan/llama.cpp-tq3

性能表现（RTX 5060 Ti 16GB）

指标	数值
PP512	1832 tok/s
TG128	107 tok/s
模型大小	12.4 GiB
每权重比特数（BPW）	3.07
显卡层数量（ngl）	99（完全使用GPU）

可完全容纳于16GB显存中——无需CPU卸载。

质量评估

在标准问答基准测试中正确率达10/10（法国首都、2+2、Python字符串反转、重力、二战、质数、沸点、莎士比亚、木星、hello→Hola）。

基础模型

Qwen/Qwen3.6-35B-A3B
来源：unsloth/Qwen3.6-35B-A3B-GGUF（Q8_0版本）

许可证

Apache 2.0——与基础模型相同。

工具调用验证

已使用--jinja参数在--reasoning off和--reasoning on --reasoning-budget 2048两种模式下进行测试：

测试项	reasoning off	reasoning on
基础工具调用触发	✅	✅
工具响应→最终答案（无循环）	✅	✅
多选项中正确选择工具	✅	✅
简单问题无需工具调用	✅	✅
多步骤工具使用	✅	✅
嵌套引号转义重试（无循环）	✅	✅
总计	10/10	10/10

工具使用/智能体工作流推荐设置

--jinja --reasoning off --reasoning-budget 0 --reasoning-format deepseek

如果使用--reasoning on，请确保您的智能体框架能够检测连续的相同工具调用，并在2-3次重试后终止循环。

自行运行测试

chmod +x test_tool_calls.sh
./test_tool_calls.sh 8085

Qwen3.6-35B-A3B-TQ3_4S

文件

量化

运行时要求

推荐设置（16GB VRAM）

性能表现（RTX 5060 Ti 16GB）

质量评估

基础模型

许可证

工具调用验证

工具使用/智能体工作流推荐设置

自行运行测试

Qwen3.6-35B-A3B-TQ3_4S

文件

量化

运行时要求

推荐设置（16GB VRAM）

性能表现（RTX 5060 Ti 16GB）

质量评估

基础模型

许可证

工具调用验证

工具使用/智能体工作流推荐设置

自行运行测试