本仓库将模型打包为 TurboQuant TQ3_4S GGUF 格式,以便本地部署。
此量化版本需要支持 TurboQuant 的运行时环境。对于 llama.cpp,若需原生支持 TQ3_4S,请使用 turbo-tan/llama.cpp-tq3 分支,而非官方上游版本。
| 文件 | 量化方式 | 大小 |
|---|---|---|
Qwen3.6-27B-TQ3_4S.gguf | TQ3_4S | ~13.0 GB |
chat_template.jinja | 对话模板 | 文本 |
thumbnail.png | 模型卡片图片 | png |
硬件配置:
提示词处理:
llama-perplexity --chunks 10 -c 2048PPL = 6.2452 +/- 0.16138提示词评测 = 712.02 令牌/秒在 RTX 5060 Ti 上使用推荐的 KV 设置进行 16 GB 显存适配性检查:
32k 上下文可适配64k 上下文可适配128k 上下文不可适配turbo-tan/llama.cpp-tq3 分支作为运行时环境。mmproj 工件。--jinja 选项,以确保捆绑的对话模板生效。128K 的上下文长度。对于显存较小的本地 GPU,可根据需要减少上下文长度以适配内存。16 GB 设备的默认提示词处理设置:
llama-bench \
-m Qwen3.6-27B-TQ3_4S.gguf \
-ngl 99 \
-ctk q4_0 \
-ctv tq3_0 \
-fa 1 \
-p 2048 -n 0 -r 3默认聊天/服务器设置:
llama-server \
-m Qwen3.6-27B-TQ3_4S.gguf \
--host 127.0.0.1 --port 8080 \
-ngl 99 -c 4096 -np 1 \
-ctk q4_0 -ctv tq3_0 -fa on \
--jinjallama-cli \
-m Qwen3.6-27B-TQ3_4S.gguf \
--jinja \
-ngl 99 \
-c 4096构建/运行时:
git clone https://github.com/turbo-tan/llama.cpp-tq3[!Note] 上游 Qwen 仓库包含采用 Hugging Face Transformers 格式的后训练模型的权重及配置文件。
这些上游制品与 Hugging Face Transformers、vLLM、SGLang、KTransformers 及相关运行时兼容。
继 2 月发布 Qwen3.5 系列之后,Qwen 推出 Qwen3.6,作为首个开源权重的 Qwen3.6 变体,旨在提升稳定性和实际应用价值。

qwen3527B6451201740816 × (3 × (Gated DeltaNet -> FFN) -> 1 × (Gated Attention -> FFN))V 为 48,QK 为 16,头维度 128Q 为 24,KV 为 4,头维度 25664262,144SWE-bench Verified:77.2Terminal-Bench 2.0:59.3SkillsBench Avg5:48.2GPQA Diamond:87.8AIME26:94.1MMMU:82.9AndroidWorld:70.3