HuggingFace镜像/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF

极致版：性能超越Qwen 3.6 27B，无审查机制，采用NEO-Di-Matrix量化技术，以量化形式释放全部算力。 Q4/IQ4s量化版本性能可达全精度（BF16）的94%，Q6版本接近98%。即便是IQ2_M版本也能达到BF16的83%。每个量化版本均包含5项指标及基准测试数据。

Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF

Qwen团队推出的这款全新Qwen 3.6 27B模型超出了所有预期[甚至超越了他们自家的398B模型]，性能亦优于GEMMA 4s，因此我们提供了与之匹配的平衡型和高精度量化版本。

该模型还支持256k上下文长度。请查看下方Qwen团队提供的3.6 27B详细统计数据。

而现在：

自由无界（无审查），通过Unsloth在自定义数据集上进行调优，模型性能（相较于Qwen 3.6 27B）更为强大，同时采用NEO/Code Di-Matrix技术实现了极致的GGUF量化性能。

详细信息：

Heretic处理与去审查：已从Qwen 3.6 27B中“驱逐”了“保姆机制”。
在Heretic处理后通过Unsloth进行微调，目前该模型性能已超越原始Qwen 3.6 27B（含审查）模型。
NEO/NEO Code Di-matrix GGUF性能；Q4ks量化版本性能可达BF16/全精度性能的94%。

纯粹的自由（Heretic统计数据）：

Metric 			This model 		Original model (Qwen/Qwen3.6-27B)
KL divergence 	0.0469 			0 (by definition)
Refusals 		4/100 			99/100

KLD：低于0.3表示良好，低于此值则为优秀。这是衡量“异端”版本与“原始模型”差异程度的指标。

比Qwen 3.6 27B更强：

进行低水平微调（在“异端化”之后），以略微提升模型的核心能力，同时不想破坏“Qwen magic”：

IN HOUSE BENCHMARKS [by Nightmedia]:

         arc-c arc/e boolq hswag obkqa piqa  wino

Qwen3.6-27B-Heretic2-Uncensored-Finetune-Thinking
mxfp8    0.673,0.846,0.905... [instruct mode]

BASE UNTUNED MODEL:

Qwen3.6-27B (by Qwen) [instruct mode]
mxfp8    0.647,0.803,0.910,0.773,0.450,0.806,0.742

注意：由于思考模式中存在令牌使用和上下文限制问题，指令模式的测试结果通常会优于“思考”模式。

NEO-CODE-Di-IMatrix-MAX-GGUF 量化版本：

量化“工程”侧重于平衡和精度，而非原始性能（在某些情况下，原始性能似乎会导致模型/量化不稳定）。

换句话说，最佳量化版本由基准测试/统计数据决定，而非猜测或一刀切的方法。

这样做是为了确保长上下文、长对话/多轮对话、编码和数学运算等任务的性能尽可能接近全精度模型，同时兼顾单次提示和标准提示/问题解决能力。

为此，我们使用了两个 Imatrix 数据集。首先获取两个数据集的“原始统计数据”，然后将它们合并，以在一个数据集中获得每个 imatrix 的最佳部分，随后用于制作“NEO-CODE-Di-IMatrix-MAX”量化版本。

我们还进行了额外的张量调整，并对这些调整进行了测量（基准测试）和进一步优化。

IQ2_M：仅为原始模型大小的 20%，却能达到 BF16/全精度模型 83% 的准确率。

Q4K_S：仅为原始模型大小的 25%，却能达到 BF16/全精度模型 94% 的准确率。

[ 详见下方完整图表，包含所有量化版本及其与非 heretic 量化版本的对比。]

GGUF 增强功能：

适用于所有使用场景的、性能显著增强的 GGUF。

达到 Unsloth 质量，并在某些指标上超越（详见下文）。

详细说明：

DI-MATRIX（双重 imatrix），融合了 NEO 和 NEO-CODE imatrix 数据集（由 DavidAU 提供）。
所有 Unsloth 张量增强功能，以及通过指标测试校准的额外增强功能。
每个量化版本均针对 BF16/全精度模型进行基准测试。
提供一个特殊的 Q8_0 量化版本，包含 BF16 组件。Imatrix 对 Q8/BF16 张量无影响。

视觉功能：

已测试视觉（图像）功能。
您还需要下载一个“mmproj”文件，并将其与 GGUF 文件放在同一文件夹中，以支持图像功能。

Qwen 模型设置（建议）：

一般任务的思考模式：temperature=1.0，top_p=0.95，top_k=20，min_p=0.0，presence_penalty=0.0，repetition_penalty=1.0
精确编码任务（如 Web 开发）的思考模式：temperature=0.6，top_p=0.95，top_k=20，min_p=0.0，presence_penalty=0.0，repetition_penalty=1.0
指令（或非思考）模式：temperature=0.7，top_p=0.80，top_k=20，min_p=0.0，presence_penalty=1.5，repetition_penalty=1.0
上下文窗口最小值：8k 至 16k。

各量化版本的完整统计数据及与“非 heretic”版本的对比：

此表显示了 Heretic-FineTuned（本仓库）的所有量化版本，并与非 heretic 的 NEO-CODE-Dimatrix 量化版本进行对比（对比数据在“[]”中）。

非 Heretic 量化版本位于：

https://huggingface.co/DavidAU/Qwen3.6-27B-NEO-CODE-Di-IMatrix-MAX-GGUF

指标	IQ2_M	IQ3_M	IQ4_XS	IQ4_NL	Q4_K_S	Q4_K_M	Q5_K_S	Q5_K_M	Q6_K	Q8_0
Same Top P (%)	82.82% [82.66%]	89.76% [89.63%]	94.14% [93.98%]	94.19% [94.04%]	94.06% [93.90%]	94.51% [94.33%]	95.89% [95.84 %]	96.11% [96.09%]	97.41% [97.34%]	98.47% [98.38%]
Mean KLD	0.1556 [0.1840]	0.0569 [0.0749]	0.0172 [0.0261]	0.0169 [0.0260]	0.0174 [0.0267]	0.0147 [0.0242]	0.0080 [0.0142]	0.0069 [0.0132]	0.0024 [0.0056]	0.0013 [0.0034]
99.9% KLD	4.48 [7.22]	1.77 [4.88]	0.66 [2.18]	0.65 [2.36]	0.71 [2.34]	0.58 [2.62]	0.36 [1.69]	0.29 [1.58]	0.09 [0.50]	0.05 [0.20]
RMS Δp (%)	11.65% [12.52%]	6.94% [7.69%]	3.70% [4.34%]	3.65% [4.36%]	3.76% [4.41%]	3.46% [4.13%]	2.52% [3.22%]	2.32% [3.019%]	1.43% [1.988%]	1.08% [1.538%]
Mean PPL (Q)	7.549 [7.746]	6.979 [7.222]	6.769 [6.977]	6.748 [6.971]	6.757 [6.948]	6.737 [6.946]	6.684 (!) [(!) 6.894]	6.678 (!) [(!) 6.885]	6.685 (!) [6.924]	6.695 [6.914]

注：

除“Same Top P (%)”（与全精度模型的接近程度）外，其他所有指标均为数值越低越好。
[] 中的数字是非 Heretic 量化版本的数据。
“Mean PPL (Q)”中的“(!)”表示其值低于 BF16/全精度模型（6.900）；Heretic 版本的 BF16/全精度模型值为 6.688。
Q8_0 包含 BF16 组件，不受 IMATRIX 影响。这是一个终极性能量化版本。我在下方还提供了该量化版本的详细指标 breakdown。
此处未包含 Q2s/Q3s，因为 IQ2/3s 速度更快、体积更小，且质量相同或略好。
有关这些指标的生成方式，请参见下方的“补充：Q6_K、Q8_0 终极性能，详细指标”。

量化指标入门指南

量化通过压缩大型语言模型，使其运行更快且能在更廉价的硬件上运行。为了判断模型在压缩后是否仍然“智能”，我们使用以下五个关键指标：

1. Same Top P (%)

定义：压缩后的模型与原始未压缩模型相比，选择完全相同单词作为首选的频率。

通俗解释：这是“逐词准确率”。如果该值为 94%，则意味着在 100 次中有 94 次，模型的首选单词与原始模型完全相同。

目标：越高越好（93% 或以上接近完美）。

2. Mean KLD (KL 散度)

定义：衡量模型的“逻辑”或“思考过程”发生了多大程度的偏移。它关注所有可能的下一个单词的概率，而不仅仅是首选单词。

通俗解释：这是“推理损失”。它衡量模型在压缩过程中内部“大脑”发生了多大变化。

目标：越低越好（低于 0.03 为优秀）。

3. 99.9% KLD (稳定性)

定义：关注 0.1% 的“最差”令牌——模型在测试过程中遇到的最困难的边缘情况。

通俗解释：这是“可靠性分数”。它告诉你当对话变得复杂时，模型是否容易“卡顿”或产生无意义的内容。

目标：越低越好（数值越低表示模型越稳定）。

4. RMS Δp (%)

定义：模型置信水平的平均变化。

通俗解释：这是“置信度一致性”。即使模型选择了正确的单词，它是否与原始模型一样确定？高数值意味着模型感觉“不稳定”或犹豫不决。

目标：越低越好（理想情况下接近 4%）。

5. Mean PPL (困惑度)

定义：衡量模型对所读取文本的“惊讶”程度。

通俗解释：这是“流畅度”。如果困惑度显著上升，模型的输出内容会感觉不那么自然、更像机器人，或者出现重复。

目标：越低越好（应尽可能接近基础模型）。

快速对比参考表

指标	理想趋势	衡量内容
Same Top P	⬆ 越高	准确性和词汇选择
Mean KLD	⬇ 越低	逻辑偏移
99.9% KLD	⬇ 越低	稳定性和可靠性
RMS Δp	⬇ 越低	置信度和确定性
Mean PPL	⬇ 越低	流畅度和自然度

补充：Q6_K、Q8_0 终极性能，详细指标

所有量化版本均有此报告。

Q6_K 和 Q8_0 - 终极版本，包含 BF16 组件。

报告生成方式：

从 BF16 GGUF 生成 LOGICS.DAT 文件：./perplexity -m w:/main.gguf -f wiki.test.raw --kl-divergence-base logits.dat
生成量化版本：./llama-quantize ...
测试量化版本：./llama-perplexity -m Q6_K.gguf -f wiki.test.raw --kl-divergence-base logits.dat --kl-divergence

“wiki.test.raw”是困惑度测试的标准数据集，每个量化版本包含 580 个测试块/580 次测试。

Q6_K

====== Perplexity statistics ======
Mean PPL(Q)                   :   6.685104 ±   0.042129
Mean PPL(base)                :   6.687935 ±   0.042136
Cor(ln(PPL(Q)), ln(PPL(base))):   99.93%
Mean ln(PPL(Q)/PPL(base))     :  -0.000423 ±   0.000227
Mean PPL(Q)/PPL(base)         :   0.999577 ±   0.000227
Mean PPL(Q)-PPL(base)         :  -0.002832 ±   0.001520

====== KL divergence statistics ======
Mean    KLD:   0.002458 ±   0.000147
Maximum KLD:  13.136569
99.9%   KLD:   0.093266
99.0%   KLD:   0.017381
95.0%   KLD:   0.005969
90.0%   KLD:   0.003742
Median  KLD:   0.000984
10.0%   KLD:   0.000019
 5.0%   KLD:   0.000004
 1.0%   KLD:  -0.000001
 0.1%   KLD:  -0.000010
Minimum KLD:  -0.000086

====== Token probability statistics ======
Mean    Δp: -0.011 ± 0.004 %
Maximum Δp: 99.656%
99.9%   Δp:  9.144%
99.0%   Δp:  3.501%
95.0%   Δp:  1.674%
90.0%   Δp:  0.990%
75.0%   Δp:  0.214%
Median  Δp:  0.000%
25.0%   Δp: -0.232%
10.0%   Δp: -1.040%
 5.0%   Δp: -1.728%
 1.0%   Δp: -3.579%
 0.1%   Δp: -9.776%
Minimum Δp: -76.380%
RMS Δp    :  1.433 ± 0.048 %
Same top p: 97.408 ± 0.041 %

Q8_0

====== Perplexity statistics ======
Mean PPL(Q)                   :   6.695419 ±   0.042239
Mean PPL(base)                :   6.687935 ±   0.042136
Cor(ln(PPL(Q)), ln(PPL(base))):   99.96%
Mean ln(PPL(Q)/PPL(base))     :   0.001118 ±   0.000174
Mean PPL(Q)/PPL(base)         :   1.001119 ±   0.000175
Mean PPL(Q)-PPL(base)         :   0.007484 ±   0.001171

====== KL divergence statistics ======
Mean    KLD:   0.001326 ±   0.000074
Maximum KLD:   7.088220
99.9%   KLD:   0.048507
99.0%   KLD:   0.007663
95.0%   KLD:   0.002989
90.0%   KLD:   0.002106
Median  KLD:   0.000536
10.0%   KLD:   0.000006
 5.0%   KLD:   0.000001
 1.0%   KLD:  -0.000002
 0.1%   KLD:  -0.000013
Minimum KLD:  -0.000070

====== Token probability statistics ======
Mean    Δp: -0.015 ± 0.003 %
Maximum Δp: 58.314%
99.9%   Δp:  5.862%
99.0%   Δp:  2.932%
95.0%   Δp:  1.436%
90.0%   Δp:  0.657%
75.0%   Δp:  0.095%
Median  Δp:  0.000%
25.0%   Δp: -0.086%
10.0%   Δp: -0.718%
 5.0%   Δp: -1.621%
 1.0%   Δp: -3.037%
 0.1%   Δp: -6.171%
Minimum Δp: -59.254%
RMS Δp    :  1.082 ± 0.027 %
Same top p: 98.474 ± 0.032 %

来自Qwen的模型信息：

Qwen3.6-27B

[!Note] 本仓库包含采用Hugging Face Transformers格式的后训练模型权重及配置文件。

这些制品与Hugging Face Transformers、vLLM、SGLang、KTransformers等工具兼容。

继2月份发布Qwen3.5系列之后，我们荣幸地推出Qwen3.6的首个开源权重版本。Qwen3.6基于社区的直接反馈构建而成，将稳定性和实际应用价值放在首位，为开发者提供更直观、响应更迅速且真正高效的编码体验。

Qwen3.6亮点

本次发布带来了显著升级，尤其在以下方面：

智能体编码（Agentic Coding）：模型现在能更流畅、精准地处理前端工作流和仓库级推理任务。
思维保留（Thinking Preservation）：我们引入了一项新功能，可保留历史消息中的推理上下文，从而简化迭代开发并减少额外工作量。

Benchmark Results

更多详情，请参阅我们的博客文章Qwen3.6-27B。

模型概述

类型：带视觉编码器的因果语言模型
训练阶段：预训练与后训练
语言模型
- 参数数量：270亿
- 隐藏维度：5120
- 词嵌入：248320（已填充）
- 层数：64
- 隐藏层结构：16 × (3 × (门控DeltaNet → FFN) → 1 × (门控注意力 → FFN))
- 门控DeltaNet：
  - 线性注意力头数量：V为48，QK为16
  - 头维度：128
- 门控注意力：
  - 注意力头数量：Q为24，KV为4
  - 头维度：256
  - 旋转位置嵌入维度：64
- 前馈网络：
  - 中间维度：17408
- 语言模型输出：248320（已填充）
- MTP：采用多步训练
上下文长度：原生支持262,144 tokens，可扩展至1,010,000 tokens。

基准测试结果

语言能力

	Qwen3.5-27B	Qwen3.5-397B-A17B	Gemma4-31B	Claude 4.5 Opus	Qwen3.6-35B-A3B	Qwen3.6-27B
编码代理
SWE-bench Verified	75.0	76.2	52.0	80.9	73.4	77.2
SWE-bench Pro	51.2	50.9	35.7	57.1	49.5	53.5
SWE-bench Multilingual	69.3	69.3	51.7	77.5	67.2	71.3
Terminal-Bench 2.0	41.6	52.5	42.9	59.3	51.5	59.3
SkillsBench _平均5项	27.2	30.0	23.6	45.3	28.7	48.2
QwenWebBench	1068	1186	1197	1536	1397	1487
NL2Repo	27.3	32.2	15.5	43.2	29.4	36.2
Claw-Eval _平均值	64.3	70.7	48.5	76.6	68.7	72.4
Claw-Eval _Pass^3	46.2	48.1	25.0	59.6	50.0	60.6
QwenClawBench	52.2	51.8	41.7	52.3	52.6	53.4
知识储备
MMLU-Pro	86.1	87.8	85.2	89.5	85.2	86.2
MMLU-Redux	93.2	94.9	93.7	95.6	93.3	93.5
SuperGPQA	65.6	70.4	65.7	70.6	64.7	66.0
C-Eval	90.5	93.0	82.6	92.2	90.0	91.4
STEM与推理
GPQA Diamond	85.5	88.4	84.3	87.0	86.0	87.8
HLE	24.3	28.7	19.5	30.8	21.4	24.0
LiveCodeBench v6	80.7	83.6	80.0	84.8	80.4	83.9
HMMT Feb 25	92.0	94.8	88.7	92.9	90.7	93.8
HMMT Nov 25	89.8	92.7	87.5	93.3	89.1	90.7
HMMT Feb 26	84.3	87.9	77.2	85.3	83.6	84.3
IMOAnswerBench	79.9	80.9	74.5	84.0	78.9	80.8
AIME26	92.6	93.3	89.2	95.1	92.7	94.1

* SWE-Bench系列：内部代理框架（bash + 文件编辑工具）；温度参数=1.0，top_p=0.95，200K上下文窗口。我们修正了SWE-bench Pro公开测试集中的部分问题任务，并在优化后的基准上评估所有基线模型。
* Terminal-Bench 2.0：使用Harbor/Terminus-2测试工具；3小时超时限制，32 CPU/48 GB内存；温度参数=1.0，top_p=0.95，top_k=20，最大 tokens=80K，256K上下文；5次运行的平均值。
* SkillsBench：通过OpenCode在78个任务（独立子集，排除依赖API的任务）上进行评估；5次运行的平均值。
* NL2Repo：其他模型通过Claude Code进行评估（温度参数=1.0，top_p=0.95，最大轮次=900）。
* QwenClawBench：基于真实用户分布的Claw代理基准测试；温度参数=0.6，256K上下文。
* QwenWebBench：内部前端代码生成基准测试；双语（英文/中文），7个类别（Web设计、Web应用、游戏、SVG、数据可视化、动画和3D）；自动渲染+多模态评判（代码/视觉正确性）；采用BT/Elo评分系统。
* AIME 26：我们使用完整的2026年AIME（I卷和II卷），其分数可能与Qwen 3.5说明中的结果有所不同。

视觉语言

	Qwen3.5-27B	Qwen3.5-397B-A17B	Gemma4-31B	Claude 4.5 Opus	Qwen3.6-35B-A3B	Qwen3.6-27B
STEM与谜题
MMMU	82.3	85.0	80.4	80.7	81.7	82.9
MMMU-Pro	75.0	79.0	76.9	70.6	75.3	75.8
MathVista _mini	87.8	--	79.3	--	86.4	87.4
DynaMath	87.7	86.3	79.5	79.7	82.8	85.6
VlmsAreBlind	96.9	--	87.2	--	96.6	97.0
通用视觉问答
RealWorldQA	83.7	83.9	72.3	77.0	85.3	84.1
MMStar	81.0	83.8	77.3	73.2	80.7	81.4
MMBench_EN-DEV-v1.1	92.6	--	90.9	--	92.8	92.3
SimpleVQA	56.0	67.1	52.9	65.7	58.9	56.1
文档理解
CharXiv _RQ	79.5	80.8	67.9	68.5	78.0	78.4
CC-OCR	81.0	82.0	75.7	76.9	81.9	81.2
OCRBench	89.4	--	86.1	--	90.0	89.4
空间智能
ERQA	60.5	67.5	57.5	46.8	61.8	62.5
CountBench	97.8	97.2	96.1	90.6	96.1	97.8
RefCOCO _avg	90.9	92.3	--	--	92.0	92.5
EmbSpatialBench	84.5	--	--	--	84.3	84.6
RefSpatialBench	67.7	--	4.7	--	64.3	70.0
视频理解
VideoMME_(带字幕)	87.0	87.5	--	77.7	86.6	87.7
VideoMMMU	82.3	84.7	81.6	84.4	83.7	84.4
MLVU	85.9	86.7	--	81.7	86.2	86.6
MVBench	74.6	77.6	--	67.2	74.6	75.5
视觉智能体
V*	93.7	95.8	--	67.0	90.1	94.7
AndroidWorld	64.2	--	--	--	--	70.3

* 空单元格（--）表示分数尚未公布或不适用。

快速入门

为实现便捷集成，我们建议通过API使用Qwen3.6。以下是通过兼容OpenAI的API使用Qwen3.6的指南。

部署Qwen3.6

Qwen3.6可通过主流推理框架以API形式部署。下面展示启动Qwen3.6模型兼容OpenAI API服务器的示例命令。

[!Important] 不同框架的推理效率和吞吐量差异显著。建议使用最新版本的框架，以确保最佳性能和兼容性。对于生产工作负载或高吞吐量场景，强烈推荐使用SGLang、KTransformers或vLLM等专用部署引擎。

[!Important] 该模型默认上下文长度为262,144 tokens。若遇到内存不足（OOM）错误，可考虑减小上下文窗口。但由于Qwen3.6利用扩展上下文处理复杂任务，建议保持至少128K tokens的上下文长度，以保留其思考能力。

SGLang

SGLang是一个用于大型语言模型和视觉语言模型的快速部署框架。 Qwen3.6推荐使用sglang>=0.5.10，可在全新环境中通过以下命令安装：

uv pip install sglang[all]

有关更多详细信息，请参见其文档。

以下操作将在 http://localhost:8000/v1 创建 API 端点：

标准版：可使用以下命令创建 API 端点，其最大上下文长度为 262,144 tokens，并在 8 块 GPU 上使用张量并行。

python -m sglang.launch_server --model-path Qwen/Qwen3.6-27B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3

工具调用：要支持工具调用，可使用以下命令。

python -m sglang.launch_server --model-path Qwen/Qwen3.6-27B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3 --tool-call-parser qwen3_coder

多令牌预测（MTP）：建议使用以下命令进行 MTP：

python -m sglang.launch_server --model-path Qwen/Qwen3.6-27B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3 --speculative-algo NEXTN --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4

有关详细的部署指南，请参见 SGLang Qwen3.5 指南。

vLLM

vLLM 是一个用于大型语言模型（LLMs）的高吞吐量且内存高效的推理和服务引擎。 Qwen3.6 建议使用 vllm>=0.19.0，可在全新环境中通过以下命令安装：

uv pip install vllm --torch-backend=auto

有关更多详细信息，请参见其文档。

以下操作将在 http://localhost:8000/v1 创建 API 端点：

标准版：以下命令可用于创建最大上下文长度为 262,144 tokens 的 API 端点，并在 8 块 GPU 上使用张量并行。
```
vllm serve Qwen/Qwen3.6-27B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 
```

工具调用：要支持工具使用，可使用以下命令。

vllm serve Qwen/Qwen3.6-27B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder

多 Token 预测（MTP）：推荐使用以下命令进行 MTP：

vllm serve Qwen/Qwen3.6-27B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'

纯文本模式：以下命令会跳过视觉编码器和多模态分析，以释放内存用于额外的 KV 缓存：

vllm serve Qwen/Qwen3.6-27B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --language-model-only

有关详细的部署指南，请参见 vLLM Qwen3.5 指南。

KTransformers

KTransformers 是一个灵活的框架，可通过 CPU-GPU 异构计算体验前沿的 LLM 推理优化。要使用 KTransformers 运行 Qwen3.6，请参见 KTransformers 部署指南。

Hugging Face Transformers

Hugging Face Transformers 包含一个 轻量级 服务器，可用于快速测试和中等负载部署。运行 Qwen3.6 需要最新版本的 transformers：

pip install "transformers[serving]"

有关更多详细信息，请参阅其文档。同时，请确保已安装torchvision和pillow。

然后，运行transformers serve以启动服务器，其API端点位于http://localhost:8000/v1；如果有可用的加速器，服务器会将模型部署到加速器上：

transformers serve Qwen/Qwen3.6-27B --port 8000 --continuous-batching

通过聊天补全 API 使用 Qwen3.6

聊天补全 API 可通过标准 HTTP 请求或 OpenAI SDK 访问。此处，我们展示使用 OpenAI Python SDK 的示例。

开始前，请确保已安装该 SDK，并配置好 API 密钥及 API 基础 URL，例如：

pip install -U openai

# Set the following accordingly
export OPENAI_BASE_URL="http://localhost:8000/v1"
export OPENAI_API_KEY="EMPTY"

[!Tip] 我们建议使用以下采样参数组合进行生成

一般任务的思考模式：temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0

精确编码任务的思考模式（例如 Web 开发）：temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0

指令（或非思考）模式：temperature=0.7, top_p=0.80, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

请注意，不同推理框架对采样参数的支持情况有所不同。

[!Important] Qwen3.6 模型默认以思考模式运行，在生成最终响应前会先产生以 </think>\n...</think>\n\n 标识的思考内容。若要禁用思考内容并获取直接响应，请参考此处的示例。

纯文本输入

from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [
    {"role": "user", "content": "Type \"I love Qwen3.6\" backwards"},
]

chat_response = client.chat.completions.create(
    model="Qwen/Qwen3.6-27B",
    messages=messages,
    max_tokens=81920,
    temperature=1.0,
    top_p=0.95,
    presence_penalty=0.0,
    extra_body={
        "top_k": 20,
    }, 
)
print("Chat response:", chat_response)

图像输入

from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image_url",
                "image_url": {
                    "url": "https://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3.5/demo/CI_Demo/mathv-1327.jpg"
                }
            },
            {
                "type": "text",
                "text": "The centres of the four illustrated circles are in the corners of the square. The two big circles touch each other and also the two little circles. With which factor do you have to multiply the radii of the little circles to obtain the radius of the big circles?\nChoices:\n(A) $\\frac{2}{9}$\n(B) $\\sqrt{5}$\n(C) $0.8 \\cdot \\pi$\n(D) 2.5\n(E) $1+\\sqrt{2}$"
            }
        ]
    }
]

response = client.chat.completions.create(
    model="Qwen/Qwen3.6-27B",
    messages=messages,
    max_tokens=81920,
    temperature=1.0,
    top_p=0.95,
    presence_penalty=0.0,
    extra_body={
        "top_k": 20,
    }, 
)
print("Chat response:", chat_response)

视频输入

from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "video_url",
                "video_url": {
                    "url": "https://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3.5/demo/video/N1cdUjctpG8.mp4"
                }
            },
            {
                "type": "text",
                "text": "How many porcelain jars were discovered in the niches located in the primary chamber of the tomb?"
            }
        ]
    }
]

# When vLLM is launched with `--media-io-kwargs '{"video": {"num_frames": -1}}'`,
# video frame sampling can be configured via `extra_body` (e.g., by setting `fps`).
# This feature is currently supported only in vLLM.
#
# By default, `fps=2` and `do_sample_frames=True`.
# With `do_sample_frames=True`, you can customize the `fps` value to set your desired video sampling rate.
response = client.chat.completions.create(
    model="Qwen/Qwen3.6-27B",
    messages=messages,
    max_tokens=81920,
    temperature=1.0,
    top_p=0.95,
    presence_penalty=0.0,
    extra_body={
        "top_k": 20,
        "mm_processor_kwargs": {"fps": 2, "do_sample_frames": True},
    }, 
)

print("Chat response:", chat_response)

指令（或非思考）模式

[!Important] Qwen3.6 不官方支持 Qwen3 的软切换，即 /think 和 /nothink。

Qwen3.6 默认会在响应前进行思考。你可以通过配置 API 参数来获取模型无需思考的直接响应。例如，

from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image_url",
                "image_url": {
                    "url": "https://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3.6/demo/RealWorld/RealWorld-04.png"
                }
            },
            {
                "type": "text",
                "text": "Where is this?"
            }
        ]
    }
]

chat_response = client.chat.completions.create(
    model="Qwen/Qwen3.6-27B",
    messages=messages,
    max_tokens=32768,
    temperature=0.7,
    top_p=0.8,
    presence_penalty=1.5,
    extra_body={
        "top_k": 20,
        "chat_template_kwargs": {"enable_thinking": False},
    }, 
)
print("Chat response:", chat_response)

[!Note] 若您使用阿里云模型 studio 的 API，除修改 model 外，请使用 "enable_thinking": False，而非 "chat_template_kwargs": {"enable_thinking": False}。

保留思考过程

默认情况下，仅保留处理最新用户消息时生成的思考块，形成通常所说的交错式思考模式。 Qwen3.6 经过额外训练，能够保留并利用历史消息中的思考痕迹。您可以通过设置 preserve_thinking 选项启用此功能：

from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [...]

chat_response = client.chat.completions.create(
    model="Qwen/Qwen3.6-27B",
    messages=messages,
    max_tokens=32768,
    temperature=0.6,
    top_p=0.95,
    presence_penalty=0.0,
    extra_body={
        "top_k": 20,
        "chat_template_kwargs": {"preserve_thinking": True},
    }, 
)
print("Chat response:", chat_response)

[!Note] 如果你正在使用阿里云模型 Studio 的 API，除了修改 model 外，请使用 "preserve_thinking": True，而非 "chat_template_kwargs": {"preserve_thinking": False}。

此功能在智能体场景中尤为实用，通过保留完整的推理上下文，有助于提升决策一致性，并且在多数情况下可减少重复推理，从而降低总体 token 消耗。此外，它还能提高 KV 缓存的利用率，在思考模式与非思考模式下均优化推理效率。

智能体使用方法

Qwen3.6 在工具调用能力方面表现出色。

Qwen-Agent

我们建议使用 Qwen-Agent，以快速基于 Qwen3.6 构建智能体应用。

你可以通过 MCP 配置文件定义可用工具，使用 Qwen-Agent 的集成工具，或自行集成其他工具。

import os
from qwen_agent.agents import Assistant

# Define LLM
# Using Alibaba Cloud Model Studio
llm_cfg = {
    # Use the OpenAI-compatible model service provided by DashScope:
    'model': 'qwen3.6-27b',
    'model_type': 'qwenvl_oai',
    'model_server': 'https://dashscope.aliyuncs.com/compatible-mode/v1',
    'api_key': os.getenv('DASHSCOPE_API_KEY'),

    'generate_cfg': {
        'use_raw_api': True,
        # When using Dash Scope OAI API, pass the parameter of whether to enable thinking mode in this way
        'extra_body': {
            'enable_thinking': True,
            'preserve_thinking': True,
        },
    },
}

# Using OpenAI-compatible API endpoint.
# functionality of the deployment frameworks and let Qwen-Agent automate the related operations.
#
# llm_cfg = {
#     # Use your own model service compatible with OpenAI API by vLLM/SGLang:
#     'model': 'Qwen/Qwen3.6-27B',
#     'model_type': 'qwenvl_oai',
#     'model_server': 'http://localhost:8000/v1',  # api_base
#     'api_key': 'EMPTY',
#
#     'generate_cfg': {
#         'use_raw_api': True,
#         # When using vLLM/SGLang OAI API, pass the parameter of whether to enable thinking mode in this way
#         'extra_body': {
#             'chat_template_kwargs': {'enable_thinking': True, 'preserve_thinking': True}
#         },
#     },
# }

# Define Tools
tools = [
    {'mcpServers': {  # You can specify the MCP configuration file
            "filesystem": {
                "command": "npx",
                "args": ["-y", "@modelcontextprotocol/server-filesystem", "/Users/xxxx/Desktop"]
            }
        }
    }
]

# Define Agent
bot = Assistant(llm=llm_cfg, function_list=tools)

# Streaming generation
messages = [{'role': 'user', 'content': 'Help me organize my desktop.'}]
for responses in bot.run(messages=messages):
    pass
print(responses)

# Streaming generation
messages = [{'role': 'user', 'content': 'Develop a dog website and save it on the desktop'}]
for responses in bot.run(messages=messages):
    pass
print(responses)

Qwen Code

Qwen Code 是一款面向终端的开源 AI 智能体，专为 Qwen 模型优化。它能帮助您理解大型代码库、自动化繁琐工作，从而加快开发进度。

更多信息，请参阅 Qwen Code。

处理超长文本

Qwen3.6 原生支持最长 262,144 tokens 的上下文长度。对于总长度（包括输入和输出）超过此限制的长文本任务，我们建议使用 RoPE 缩放技术（例如 YaRN）来有效处理长文本。

目前已有多个推理框架支持 YaRN，例如 transformers、vllm、ktransformers 和 sglang。通常，在支持的框架中启用 YaRN 有以下两种方法：

修改模型配置文件：在 config.json 文件中，将 text_config 里的 rope_parameters 字段修改为：

{
    "mrope_interleaved": true,
    "mrope_section": [
        11,
        11,
        10
    ],
    "rope_type": "yarn",
    "rope_theta": 10000000,
    "partial_rotary_factor": 0.25,
    "factor": 4.0,
    "original_max_position_embeddings": 262144,
}

传递命令行参数：

对于 vllm，您可以使用

VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm serve ... --hf-overrides '{"text_config": {"rope_parameters": {"mrope_interleaved": true, "mrope_section": [11, 11, 10], "rope_type": "yarn", "rope_theta": 10000000, "partial_rotary_factor": 0.25, "factor": 4.0, "original_max_position_embeddings": 262144}}}' --max-model-len 1010000

对于 sglang 和 ktransformers，您可以使用

SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 python -m sglang.launch_server ... --json-model-override-args '{"text_config": {"rope_parameters": {"mrope_interleaved": true, "mrope_section": [11, 11, 10], "rope_type": "yarn", "rope_theta": 10000000, "partial_rotary_factor": 0.25, "factor": 4.0, "original_max_position_embeddings": 262144}}}' --context-length 1010000

[!NOTE] 所有知名的开源框架均实现了静态 YaRN，这意味着缩放因子不随输入长度变化，可能会影响短文本的性能。 我们建议仅在需要处理长上下文时才修改 rope_parameters 配置。同时，建议根据需要调整 factor。例如，如果您的应用程序的典型上下文长度为 524,288 tokens，将 factor 设置为 2.0 会更合适。

最佳实践

为获得最佳性能，我们建议采用以下设置：

采样参数：
- 建议根据模式和任务类型使用以下采样参数组合：
  - 通用任务思考模式：
    temperature=1.0，top_p=0.95，top_k=20，min_p=0.0，presence_penalty=0.0，repetition_penalty=1.0
  - 精确编码任务思考模式（如Web开发）：
    temperature=0.6，top_p=0.95，top_k=20，min_p=0.0，presence_penalty=0.0，repetition_penalty=1.0
  - 指令（非思考）模式：
    temperature=0.7，top_p=0.80，top_k=20，min_p=0.0，presence_penalty=1.5，repetition_penalty=1.0
- 在支持的框架中，可将presence_penalty参数调整在0到2之间以减少无意义重复。但较高的参数值偶尔可能导致语言混杂，并略微降低模型性能。
充足的输出长度：对于大多数查询，建议使用32,768 tokens的输出长度。在数学和编程竞赛等高度复杂问题的基准测试中，建议将最大输出长度设置为81,920 tokens。这为模型提供了足够的空间来生成详细全面的响应，从而提升整体性能。
标准化输出格式：进行基准测试时，建议通过提示词标准化模型输出。
- 数学问题：在提示词中包含“请逐步推理，并将最终答案放在\boxed{}内。”
- 多项选择题：在提示词中添加以下JSON结构以标准化响应：“请在answer字段中仅用选项字母展示您的选择，例如："answer": "C"。”
长视频理解：为优化纯文本和图像的推理效率，已发布的video_preprocessor_config.json中size参数采用保守配置。建议将视频预处理配置文件中的longest_edge参数设置为469,762,048（对应224k视频tokens），以支持小时级视频的更高帧率采样，从而获得更优性能。例如：
```
{"longest_edge": 469762048, "shortest_edge": 4096}
```
或者，通过引擎启动参数覆盖默认值。实现细节请参考：vLLM / SGLang。

引用说明

如果您觉得我们的工作对您有所帮助，欢迎引用我们的成果。

@misc{qwen3.6-27b,
    title  = {{Qwen3.6-27B}: Flagship-Level Coding in a {27B} Dense Model},
    author = {{Qwen Team}},
    month  = {April},
    year   = {2026},
    url    = {https://qwen.ai/blog?id=qwen3.6-27b}
}

Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF

该模型还支持256k上下文长度。请查看下方Qwen团队提供的3.6 27B详细统计数据。

而现在：

详细信息：

Heretic处理与去审查：已从Qwen 3.6 27B中“驱逐”了“保姆机制”。
在Heretic处理后通过Unsloth进行微调，目前该模型性能已超越原始Qwen 3.6 27B（含审查）模型。
NEO/NEO Code Di-matrix GGUF性能；Q4ks量化版本性能可达BF16/全精度性能的94%。

纯粹的自由（Heretic统计数据）：

Metric 			This model 		Original model (Qwen/Qwen3.6-27B)
KL divergence 	0.0469 			0 (by definition)
Refusals 		4/100 			99/100

KLD：低于0.3表示良好，低于此值则为优秀。这是衡量“异端”版本与“原始模型”差异程度的指标。

比Qwen 3.6 27B更强：

进行低水平微调（在“异端化”之后），以略微提升模型的核心能力，同时不想破坏“Qwen magic”：

IN HOUSE BENCHMARKS [by Nightmedia]:

         arc-c arc/e boolq hswag obkqa piqa  wino

Qwen3.6-27B-Heretic2-Uncensored-Finetune-Thinking
mxfp8    0.673,0.846,0.905... [instruct mode]

BASE UNTUNED MODEL:

Qwen3.6-27B (by Qwen) [instruct mode]
mxfp8    0.647,0.803,0.910,0.773,0.450,0.806,0.742

注意：由于思考模式中存在令牌使用和上下文限制问题，指令模式的测试结果通常会优于“思考”模式。

NEO-CODE-Di-IMatrix-MAX-GGUF 量化版本：

量化“工程”侧重于平衡和精度，而非原始性能（在某些情况下，原始性能似乎会导致模型/量化不稳定）。

换句话说，最佳量化版本由基准测试/统计数据决定，而非猜测或一刀切的方法。

这样做是为了确保长上下文、长对话/多轮对话、编码和数学运算等任务的性能尽可能接近全精度模型，同时兼顾单次提示和标准提示/问题解决能力。

我们还进行了额外的张量调整，并对这些调整进行了测量（基准测试）和进一步优化。

IQ2_M：仅为原始模型大小的 20%，却能达到 BF16/全精度模型 83% 的准确率。

Q4K_S：仅为原始模型大小的 25%，却能达到 BF16/全精度模型 94% 的准确率。

[ 详见下方完整图表，包含所有量化版本及其与非 heretic 量化版本的对比。]

GGUF 增强功能：

适用于所有使用场景的、性能显著增强的 GGUF。

达到 Unsloth 质量，并在某些指标上超越（详见下文）。

详细说明：

DI-MATRIX（双重 imatrix），融合了 NEO 和 NEO-CODE imatrix 数据集（由 DavidAU 提供）。
所有 Unsloth 张量增强功能，以及通过指标测试校准的额外增强功能。
每个量化版本均针对 BF16/全精度模型进行基准测试。
提供一个特殊的 Q8_0 量化版本，包含 BF16 组件。Imatrix 对 Q8/BF16 张量无影响。

视觉功能：

已测试视觉（图像）功能。
您还需要下载一个“mmproj”文件，并将其与 GGUF 文件放在同一文件夹中，以支持图像功能。

Qwen 模型设置（建议）：

一般任务的思考模式：temperature=1.0，top_p=0.95，top_k=20，min_p=0.0，presence_penalty=0.0，repetition_penalty=1.0
精确编码任务（如 Web 开发）的思考模式：temperature=0.6，top_p=0.95，top_k=20，min_p=0.0，presence_penalty=0.0，repetition_penalty=1.0
指令（或非思考）模式：temperature=0.7，top_p=0.80，top_k=20，min_p=0.0，presence_penalty=1.5，repetition_penalty=1.0
上下文窗口最小值：8k 至 16k。

各量化版本的完整统计数据及与“非 heretic”版本的对比：

此表显示了 Heretic-FineTuned（本仓库）的所有量化版本，并与非 heretic 的 NEO-CODE-Dimatrix 量化版本进行对比（对比数据在“[]”中）。

非 Heretic 量化版本位于：

https://huggingface.co/DavidAU/Qwen3.6-27B-NEO-CODE-Di-IMatrix-MAX-GGUF

指标	IQ2_M	IQ3_M	IQ4_XS	IQ4_NL	Q4_K_S	Q4_K_M	Q5_K_S	Q5_K_M	Q6_K	Q8_0
Same Top P (%)	82.82% [82.66%]	89.76% [89.63%]	94.14% [93.98%]	94.19% [94.04%]	94.06% [93.90%]	94.51% [94.33%]	95.89% [95.84 %]	96.11% [96.09%]	97.41% [97.34%]	98.47% [98.38%]
Mean KLD	0.1556 [0.1840]	0.0569 [0.0749]	0.0172 [0.0261]	0.0169 [0.0260]	0.0174 [0.0267]	0.0147 [0.0242]	0.0080 [0.0142]	0.0069 [0.0132]	0.0024 [0.0056]	0.0013 [0.0034]
99.9% KLD	4.48 [7.22]	1.77 [4.88]	0.66 [2.18]	0.65 [2.36]	0.71 [2.34]	0.58 [2.62]	0.36 [1.69]	0.29 [1.58]	0.09 [0.50]	0.05 [0.20]
RMS Δp (%)	11.65% [12.52%]	6.94% [7.69%]	3.70% [4.34%]	3.65% [4.36%]	3.76% [4.41%]	3.46% [4.13%]	2.52% [3.22%]	2.32% [3.019%]	1.43% [1.988%]	1.08% [1.538%]
Mean PPL (Q)	7.549 [7.746]	6.979 [7.222]	6.769 [6.977]	6.748 [6.971]	6.757 [6.948]	6.737 [6.946]	6.684 (!) [(!) 6.894]	6.678 (!) [(!) 6.885]	6.685 (!) [6.924]	6.695 [6.914]

注：

除“Same Top P (%)”（与全精度模型的接近程度）外，其他所有指标均为数值越低越好。
[] 中的数字是非 Heretic 量化版本的数据。
“Mean PPL (Q)”中的“(!)”表示其值低于 BF16/全精度模型（6.900）；Heretic 版本的 BF16/全精度模型值为 6.688。
Q8_0 包含 BF16 组件，不受 IMATRIX 影响。这是一个终极性能量化版本。我在下方还提供了该量化版本的详细指标 breakdown。
此处未包含 Q2s/Q3s，因为 IQ2/3s 速度更快、体积更小，且质量相同或略好。
有关这些指标的生成方式，请参见下方的“补充：Q6_K、Q8_0 终极性能，详细指标”。

量化指标入门指南

量化通过压缩大型语言模型，使其运行更快且能在更廉价的硬件上运行。为了判断模型在压缩后是否仍然“智能”，我们使用以下五个关键指标：

1. Same Top P (%)

定义：压缩后的模型与原始未压缩模型相比，选择完全相同单词作为首选的频率。

通俗解释：这是“逐词准确率”。如果该值为 94%，则意味着在 100 次中有 94 次，模型的首选单词与原始模型完全相同。

目标：越高越好（93% 或以上接近完美）。

2. Mean KLD (KL 散度)

定义：衡量模型的“逻辑”或“思考过程”发生了多大程度的偏移。它关注所有可能的下一个单词的概率，而不仅仅是首选单词。

通俗解释：这是“推理损失”。它衡量模型在压缩过程中内部“大脑”发生了多大变化。

目标：越低越好（低于 0.03 为优秀）。

3. 99.9% KLD (稳定性)

定义：关注 0.1% 的“最差”令牌——模型在测试过程中遇到的最困难的边缘情况。

通俗解释：这是“可靠性分数”。它告诉你当对话变得复杂时，模型是否容易“卡顿”或产生无意义的内容。

目标：越低越好（数值越低表示模型越稳定）。

4. RMS Δp (%)

定义：模型置信水平的平均变化。

通俗解释：这是“置信度一致性”。即使模型选择了正确的单词，它是否与原始模型一样确定？高数值意味着模型感觉“不稳定”或犹豫不决。

目标：越低越好（理想情况下接近 4%）。

5. Mean PPL (困惑度)

定义：衡量模型对所读取文本的“惊讶”程度。

通俗解释：这是“流畅度”。如果困惑度显著上升，模型的输出内容会感觉不那么自然、更像机器人，或者出现重复。

目标：越低越好（应尽可能接近基础模型）。

快速对比参考表

指标	理想趋势	衡量内容
Same Top P	⬆ 越高	准确性和词汇选择
Mean KLD	⬇ 越低	逻辑偏移
99.9% KLD	⬇ 越低	稳定性和可靠性
RMS Δp	⬇ 越低	置信度和确定性
Mean PPL	⬇ 越低	流畅度和自然度

补充：Q6_K、Q8_0 终极性能，详细指标

所有量化版本均有此报告。

Q6_K 和 Q8_0 - 终极版本，包含 BF16 组件。

报告生成方式：

从 BF16 GGUF 生成 LOGICS.DAT 文件：./perplexity -m w:/main.gguf -f wiki.test.raw --kl-divergence-base logits.dat
生成量化版本：./llama-quantize ...
测试量化版本：./llama-perplexity -m Q6_K.gguf -f wiki.test.raw --kl-divergence-base logits.dat --kl-divergence

“wiki.test.raw”是困惑度测试的标准数据集，每个量化版本包含 580 个测试块/580 次测试。

Q6_K

====== Perplexity statistics ======
Mean PPL(Q)                   :   6.685104 ±   0.042129
Mean PPL(base)                :   6.687935 ±   0.042136
Cor(ln(PPL(Q)), ln(PPL(base))):   99.93%
Mean ln(PPL(Q)/PPL(base))     :  -0.000423 ±   0.000227
Mean PPL(Q)/PPL(base)         :   0.999577 ±   0.000227
Mean PPL(Q)-PPL(base)         :  -0.002832 ±   0.001520

====== KL divergence statistics ======
Mean    KLD:   0.002458 ±   0.000147
Maximum KLD:  13.136569
99.9%   KLD:   0.093266
99.0%   KLD:   0.017381
95.0%   KLD:   0.005969
90.0%   KLD:   0.003742
Median  KLD:   0.000984
10.0%   KLD:   0.000019
 5.0%   KLD:   0.000004
 1.0%   KLD:  -0.000001
 0.1%   KLD:  -0.000010
Minimum KLD:  -0.000086

====== Token probability statistics ======
Mean    Δp: -0.011 ± 0.004 %
Maximum Δp: 99.656%
99.9%   Δp:  9.144%
99.0%   Δp:  3.501%
95.0%   Δp:  1.674%
90.0%   Δp:  0.990%
75.0%   Δp:  0.214%
Median  Δp:  0.000%
25.0%   Δp: -0.232%
10.0%   Δp: -1.040%
 5.0%   Δp: -1.728%
 1.0%   Δp: -3.579%
 0.1%   Δp: -9.776%
Minimum Δp: -76.380%
RMS Δp    :  1.433 ± 0.048 %
Same top p: 97.408 ± 0.041 %

Q8_0

====== Perplexity statistics ======
Mean PPL(Q)                   :   6.695419 ±   0.042239
Mean PPL(base)                :   6.687935 ±   0.042136
Cor(ln(PPL(Q)), ln(PPL(base))):   99.96%
Mean ln(PPL(Q)/PPL(base))     :   0.001118 ±   0.000174
Mean PPL(Q)/PPL(base)         :   1.001119 ±   0.000175
Mean PPL(Q)-PPL(base)         :   0.007484 ±   0.001171

====== KL divergence statistics ======
Mean    KLD:   0.001326 ±   0.000074
Maximum KLD:   7.088220
99.9%   KLD:   0.048507
99.0%   KLD:   0.007663
95.0%   KLD:   0.002989
90.0%   KLD:   0.002106
Median  KLD:   0.000536
10.0%   KLD:   0.000006
 5.0%   KLD:   0.000001
 1.0%   KLD:  -0.000002
 0.1%   KLD:  -0.000013
Minimum KLD:  -0.000070

====== Token probability statistics ======
Mean    Δp: -0.015 ± 0.003 %
Maximum Δp: 58.314%
99.9%   Δp:  5.862%
99.0%   Δp:  2.932%
95.0%   Δp:  1.436%
90.0%   Δp:  0.657%
75.0%   Δp:  0.095%
Median  Δp:  0.000%
25.0%   Δp: -0.086%
10.0%   Δp: -0.718%
 5.0%   Δp: -1.621%
 1.0%   Δp: -3.037%
 0.1%   Δp: -6.171%
Minimum Δp: -59.254%
RMS Δp    :  1.082 ± 0.027 %
Same top p: 98.474 ± 0.032 %

来自Qwen的模型信息：

Qwen3.6-27B

[!Note] 本仓库包含采用Hugging Face Transformers格式的后训练模型权重及配置文件。

这些制品与Hugging Face Transformers、vLLM、SGLang、KTransformers等工具兼容。

Qwen3.6亮点

本次发布带来了显著升级，尤其在以下方面：

智能体编码（Agentic Coding）：模型现在能更流畅、精准地处理前端工作流和仓库级推理任务。
思维保留（Thinking Preservation）：我们引入了一项新功能，可保留历史消息中的推理上下文，从而简化迭代开发并减少额外工作量。

Benchmark Results

更多详情，请参阅我们的博客文章Qwen3.6-27B。

模型概述

类型：带视觉编码器的因果语言模型
训练阶段：预训练与后训练
语言模型
- 参数数量：270亿
- 隐藏维度：5120
- 词嵌入：248320（已填充）
- 层数：64
- 隐藏层结构：16 × (3 × (门控DeltaNet → FFN) → 1 × (门控注意力 → FFN))
- 门控DeltaNet：
  - 线性注意力头数量：V为48，QK为16
  - 头维度：128
- 门控注意力：
  - 注意力头数量：Q为24，KV为4
  - 头维度：256
  - 旋转位置嵌入维度：64
- 前馈网络：
  - 中间维度：17408
- 语言模型输出：248320（已填充）
- MTP：采用多步训练
上下文长度：原生支持262,144 tokens，可扩展至1,010,000 tokens。

基准测试结果

语言能力

	Qwen3.5-27B	Qwen3.5-397B-A17B	Gemma4-31B	Claude 4.5 Opus	Qwen3.6-35B-A3B	Qwen3.6-27B
编码代理
SWE-bench Verified	75.0	76.2	52.0	80.9	73.4	77.2
SWE-bench Pro	51.2	50.9	35.7	57.1	49.5	53.5
SWE-bench Multilingual	69.3	69.3	51.7	77.5	67.2	71.3
Terminal-Bench 2.0	41.6	52.5	42.9	59.3	51.5	59.3
SkillsBench _平均5项	27.2	30.0	23.6	45.3	28.7	48.2
QwenWebBench	1068	1186	1197	1536	1397	1487
NL2Repo	27.3	32.2	15.5	43.2	29.4	36.2
Claw-Eval _平均值	64.3	70.7	48.5	76.6	68.7	72.4
Claw-Eval _Pass^3	46.2	48.1	25.0	59.6	50.0	60.6
QwenClawBench	52.2	51.8	41.7	52.3	52.6	53.4
知识储备
MMLU-Pro	86.1	87.8	85.2	89.5	85.2	86.2
MMLU-Redux	93.2	94.9	93.7	95.6	93.3	93.5
SuperGPQA	65.6	70.4	65.7	70.6	64.7	66.0
C-Eval	90.5	93.0	82.6	92.2	90.0	91.4
STEM与推理
GPQA Diamond	85.5	88.4	84.3	87.0	86.0	87.8
HLE	24.3	28.7	19.5	30.8	21.4	24.0
LiveCodeBench v6	80.7	83.6	80.0	84.8	80.4	83.9
HMMT Feb 25	92.0	94.8	88.7	92.9	90.7	93.8
HMMT Nov 25	89.8	92.7	87.5	93.3	89.1	90.7
HMMT Feb 26	84.3	87.9	77.2	85.3	83.6	84.3
IMOAnswerBench	79.9	80.9	74.5	84.0	78.9	80.8
AIME26	92.6	93.3	89.2	95.1	92.7	94.1

视觉语言

	Qwen3.5-27B	Qwen3.5-397B-A17B	Gemma4-31B	Claude 4.5 Opus	Qwen3.6-35B-A3B	Qwen3.6-27B
STEM与谜题
MMMU	82.3	85.0	80.4	80.7	81.7	82.9
MMMU-Pro	75.0	79.0	76.9	70.6	75.3	75.8
MathVista _mini	87.8	--	79.3	--	86.4	87.4
DynaMath	87.7	86.3	79.5	79.7	82.8	85.6
VlmsAreBlind	96.9	--	87.2	--	96.6	97.0
通用视觉问答
RealWorldQA	83.7	83.9	72.3	77.0	85.3	84.1
MMStar	81.0	83.8	77.3	73.2	80.7	81.4
MMBench_EN-DEV-v1.1	92.6	--	90.9	--	92.8	92.3
SimpleVQA	56.0	67.1	52.9	65.7	58.9	56.1
文档理解
CharXiv _RQ	79.5	80.8	67.9	68.5	78.0	78.4
CC-OCR	81.0	82.0	75.7	76.9	81.9	81.2
OCRBench	89.4	--	86.1	--	90.0	89.4
空间智能
ERQA	60.5	67.5	57.5	46.8	61.8	62.5
CountBench	97.8	97.2	96.1	90.6	96.1	97.8
RefCOCO _avg	90.9	92.3	--	--	92.0	92.5
EmbSpatialBench	84.5	--	--	--	84.3	84.6
RefSpatialBench	67.7	--	4.7	--	64.3	70.0
视频理解
VideoMME_(带字幕)	87.0	87.5	--	77.7	86.6	87.7
VideoMMMU	82.3	84.7	81.6	84.4	83.7	84.4
MLVU	85.9	86.7	--	81.7	86.2	86.6
MVBench	74.6	77.6	--	67.2	74.6	75.5
视觉智能体
V*	93.7	95.8	--	67.0	90.1	94.7
AndroidWorld	64.2	--	--	--	--	70.3

* 空单元格（--）表示分数尚未公布或不适用。

快速入门

为实现便捷集成，我们建议通过API使用Qwen3.6。以下是通过兼容OpenAI的API使用Qwen3.6的指南。

部署Qwen3.6

Qwen3.6可通过主流推理框架以API形式部署。下面展示启动Qwen3.6模型兼容OpenAI API服务器的示例命令。

[!Important] 不同框架的推理效率和吞吐量差异显著。建议使用最新版本的框架，以确保最佳性能和兼容性。对于生产工作负载或高吞吐量场景，强烈推荐使用SGLang、KTransformers或vLLM等专用部署引擎。

[!Important] 该模型默认上下文长度为262,144 tokens。若遇到内存不足（OOM）错误，可考虑减小上下文窗口。但由于Qwen3.6利用扩展上下文处理复杂任务，建议保持至少128K tokens的上下文长度，以保留其思考能力。

SGLang

SGLang是一个用于大型语言模型和视觉语言模型的快速部署框架。 Qwen3.6推荐使用sglang>=0.5.10，可在全新环境中通过以下命令安装：

uv pip install sglang[all]

有关更多详细信息，请参见其文档。

以下操作将在 http://localhost:8000/v1 创建 API 端点：

标准版：可使用以下命令创建 API 端点，其最大上下文长度为 262,144 tokens，并在 8 块 GPU 上使用张量并行。

python -m sglang.launch_server --model-path Qwen/Qwen3.6-27B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3

工具调用：要支持工具调用，可使用以下命令。

python -m sglang.launch_server --model-path Qwen/Qwen3.6-27B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3 --tool-call-parser qwen3_coder

多令牌预测（MTP）：建议使用以下命令进行 MTP：

python -m sglang.launch_server --model-path Qwen/Qwen3.6-27B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3 --speculative-algo NEXTN --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4

有关详细的部署指南，请参见 SGLang Qwen3.5 指南。

vLLM

vLLM 是一个用于大型语言模型（LLMs）的高吞吐量且内存高效的推理和服务引擎。 Qwen3.6 建议使用 vllm>=0.19.0，可在全新环境中通过以下命令安装：

uv pip install vllm --torch-backend=auto

有关更多详细信息，请参见其文档。

以下操作将在 http://localhost:8000/v1 创建 API 端点：

标准版：以下命令可用于创建最大上下文长度为 262,144 tokens 的 API 端点，并在 8 块 GPU 上使用张量并行。
```
vllm serve Qwen/Qwen3.6-27B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 
```

工具调用：要支持工具使用，可使用以下命令。

vllm serve Qwen/Qwen3.6-27B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder

多 Token 预测（MTP）：推荐使用以下命令进行 MTP：

vllm serve Qwen/Qwen3.6-27B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'

纯文本模式：以下命令会跳过视觉编码器和多模态分析，以释放内存用于额外的 KV 缓存：

vllm serve Qwen/Qwen3.6-27B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --language-model-only

有关详细的部署指南，请参见 vLLM Qwen3.5 指南。

KTransformers

KTransformers 是一个灵活的框架，可通过 CPU-GPU 异构计算体验前沿的 LLM 推理优化。要使用 KTransformers 运行 Qwen3.6，请参见 KTransformers 部署指南。

Hugging Face Transformers

Hugging Face Transformers 包含一个 轻量级 服务器，可用于快速测试和中等负载部署。运行 Qwen3.6 需要最新版本的 transformers：

pip install "transformers[serving]"

有关更多详细信息，请参阅其文档。同时，请确保已安装torchvision和pillow。

然后，运行transformers serve以启动服务器，其API端点位于http://localhost:8000/v1；如果有可用的加速器，服务器会将模型部署到加速器上：

transformers serve Qwen/Qwen3.6-27B --port 8000 --continuous-batching

通过聊天补全 API 使用 Qwen3.6

聊天补全 API 可通过标准 HTTP 请求或 OpenAI SDK 访问。此处，我们展示使用 OpenAI Python SDK 的示例。

开始前，请确保已安装该 SDK，并配置好 API 密钥及 API 基础 URL，例如：

pip install -U openai

# Set the following accordingly
export OPENAI_BASE_URL="http://localhost:8000/v1"
export OPENAI_API_KEY="EMPTY"

[!Tip] 我们建议使用以下采样参数组合进行生成

一般任务的思考模式：temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0

精确编码任务的思考模式（例如 Web 开发）：temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0

指令（或非思考）模式：temperature=0.7, top_p=0.80, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

请注意，不同推理框架对采样参数的支持情况有所不同。

[!Important] Qwen3.6 模型默认以思考模式运行，在生成最终响应前会先产生以 </think>\n...</think>\n\n 标识的思考内容。若要禁用思考内容并获取直接响应，请参考此处的示例。

纯文本输入

from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [
    {"role": "user", "content": "Type \"I love Qwen3.6\" backwards"},
]

chat_response = client.chat.completions.create(
    model="Qwen/Qwen3.6-27B",
    messages=messages,
    max_tokens=81920,
    temperature=1.0,
    top_p=0.95,
    presence_penalty=0.0,
    extra_body={
        "top_k": 20,
    }, 
)
print("Chat response:", chat_response)

图像输入

from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image_url",
                "image_url": {
                    "url": "https://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3.5/demo/CI_Demo/mathv-1327.jpg"
                }
            },
            {
                "type": "text",
                "text": "The centres of the four illustrated circles are in the corners of the square. The two big circles touch each other and also the two little circles. With which factor do you have to multiply the radii of the little circles to obtain the radius of the big circles?\nChoices:\n(A) $\\frac{2}{9}$\n(B) $\\sqrt{5}$\n(C) $0.8 \\cdot \\pi$\n(D) 2.5\n(E) $1+\\sqrt{2}$"
            }
        ]
    }
]

response = client.chat.completions.create(
    model="Qwen/Qwen3.6-27B",
    messages=messages,
    max_tokens=81920,
    temperature=1.0,
    top_p=0.95,
    presence_penalty=0.0,
    extra_body={
        "top_k": 20,
    }, 
)
print("Chat response:", chat_response)

视频输入

from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "video_url",
                "video_url": {
                    "url": "https://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3.5/demo/video/N1cdUjctpG8.mp4"
                }
            },
            {
                "type": "text",
                "text": "How many porcelain jars were discovered in the niches located in the primary chamber of the tomb?"
            }
        ]
    }
]

# When vLLM is launched with `--media-io-kwargs '{"video": {"num_frames": -1}}'`,
# video frame sampling can be configured via `extra_body` (e.g., by setting `fps`).
# This feature is currently supported only in vLLM.
#
# By default, `fps=2` and `do_sample_frames=True`.
# With `do_sample_frames=True`, you can customize the `fps` value to set your desired video sampling rate.
response = client.chat.completions.create(
    model="Qwen/Qwen3.6-27B",
    messages=messages,
    max_tokens=81920,
    temperature=1.0,
    top_p=0.95,
    presence_penalty=0.0,
    extra_body={
        "top_k": 20,
        "mm_processor_kwargs": {"fps": 2, "do_sample_frames": True},
    }, 
)

print("Chat response:", chat_response)

指令（或非思考）模式

[!Important] Qwen3.6 不官方支持 Qwen3 的软切换，即 /think 和 /nothink。

Qwen3.6 默认会在响应前进行思考。你可以通过配置 API 参数来获取模型无需思考的直接响应。例如，

from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image_url",
                "image_url": {
                    "url": "https://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3.6/demo/RealWorld/RealWorld-04.png"
                }
            },
            {
                "type": "text",
                "text": "Where is this?"
            }
        ]
    }
]

chat_response = client.chat.completions.create(
    model="Qwen/Qwen3.6-27B",
    messages=messages,
    max_tokens=32768,
    temperature=0.7,
    top_p=0.8,
    presence_penalty=1.5,
    extra_body={
        "top_k": 20,
        "chat_template_kwargs": {"enable_thinking": False},
    }, 
)
print("Chat response:", chat_response)

[!Note] 若您使用阿里云模型 studio 的 API，除修改 model 外，请使用 "enable_thinking": False，而非 "chat_template_kwargs": {"enable_thinking": False}。

保留思考过程

from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [...]

chat_response = client.chat.completions.create(
    model="Qwen/Qwen3.6-27B",
    messages=messages,
    max_tokens=32768,
    temperature=0.6,
    top_p=0.95,
    presence_penalty=0.0,
    extra_body={
        "top_k": 20,
        "chat_template_kwargs": {"preserve_thinking": True},
    }, 
)
print("Chat response:", chat_response)

[!Note] 如果你正在使用阿里云模型 Studio 的 API，除了修改 model 外，请使用 "preserve_thinking": True，而非 "chat_template_kwargs": {"preserve_thinking": False}。

智能体使用方法

Qwen3.6 在工具调用能力方面表现出色。

Qwen-Agent

我们建议使用 Qwen-Agent，以快速基于 Qwen3.6 构建智能体应用。

你可以通过 MCP 配置文件定义可用工具，使用 Qwen-Agent 的集成工具，或自行集成其他工具。

import os
from qwen_agent.agents import Assistant

# Define LLM
# Using Alibaba Cloud Model Studio
llm_cfg = {
    # Use the OpenAI-compatible model service provided by DashScope:
    'model': 'qwen3.6-27b',
    'model_type': 'qwenvl_oai',
    'model_server': 'https://dashscope.aliyuncs.com/compatible-mode/v1',
    'api_key': os.getenv('DASHSCOPE_API_KEY'),

    'generate_cfg': {
        'use_raw_api': True,
        # When using Dash Scope OAI API, pass the parameter of whether to enable thinking mode in this way
        'extra_body': {
            'enable_thinking': True,
            'preserve_thinking': True,
        },
    },
}

# Using OpenAI-compatible API endpoint.
# functionality of the deployment frameworks and let Qwen-Agent automate the related operations.
#
# llm_cfg = {
#     # Use your own model service compatible with OpenAI API by vLLM/SGLang:
#     'model': 'Qwen/Qwen3.6-27B',
#     'model_type': 'qwenvl_oai',
#     'model_server': 'http://localhost:8000/v1',  # api_base
#     'api_key': 'EMPTY',
#
#     'generate_cfg': {
#         'use_raw_api': True,
#         # When using vLLM/SGLang OAI API, pass the parameter of whether to enable thinking mode in this way
#         'extra_body': {
#             'chat_template_kwargs': {'enable_thinking': True, 'preserve_thinking': True}
#         },
#     },
# }

# Define Tools
tools = [
    {'mcpServers': {  # You can specify the MCP configuration file
            "filesystem": {
                "command": "npx",
                "args": ["-y", "@modelcontextprotocol/server-filesystem", "/Users/xxxx/Desktop"]
            }
        }
    }
]

# Define Agent
bot = Assistant(llm=llm_cfg, function_list=tools)

# Streaming generation
messages = [{'role': 'user', 'content': 'Help me organize my desktop.'}]
for responses in bot.run(messages=messages):
    pass
print(responses)

# Streaming generation
messages = [{'role': 'user', 'content': 'Develop a dog website and save it on the desktop'}]
for responses in bot.run(messages=messages):
    pass
print(responses)

Qwen Code

Qwen Code 是一款面向终端的开源 AI 智能体，专为 Qwen 模型优化。它能帮助您理解大型代码库、自动化繁琐工作，从而加快开发进度。

更多信息，请参阅 Qwen Code。

处理超长文本

目前已有多个推理框架支持 YaRN，例如 transformers、vllm、ktransformers 和 sglang。通常，在支持的框架中启用 YaRN 有以下两种方法：

修改模型配置文件：在 config.json 文件中，将 text_config 里的 rope_parameters 字段修改为：

{
    "mrope_interleaved": true,
    "mrope_section": [
        11,
        11,
        10
    ],
    "rope_type": "yarn",
    "rope_theta": 10000000,
    "partial_rotary_factor": 0.25,
    "factor": 4.0,
    "original_max_position_embeddings": 262144,
}

传递命令行参数：

对于 vllm，您可以使用

VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm serve ... --hf-overrides '{"text_config": {"rope_parameters": {"mrope_interleaved": true, "mrope_section": [11, 11, 10], "rope_type": "yarn", "rope_theta": 10000000, "partial_rotary_factor": 0.25, "factor": 4.0, "original_max_position_embeddings": 262144}}}' --max-model-len 1010000

对于 sglang 和 ktransformers，您可以使用

SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 python -m sglang.launch_server ... --json-model-override-args '{"text_config": {"rope_parameters": {"mrope_interleaved": true, "mrope_section": [11, 11, 10], "rope_type": "yarn", "rope_theta": 10000000, "partial_rotary_factor": 0.25, "factor": 4.0, "original_max_position_embeddings": 262144}}}' --context-length 1010000

[!NOTE] 所有知名的开源框架均实现了静态 YaRN，这意味着缩放因子不随输入长度变化，可能会影响短文本的性能。 我们建议仅在需要处理长上下文时才修改 rope_parameters 配置。同时，建议根据需要调整 factor。例如，如果您的应用程序的典型上下文长度为 524,288 tokens，将 factor 设置为 2.0 会更合适。

最佳实践

为获得最佳性能，我们建议采用以下设置：

采样参数：
- 建议根据模式和任务类型使用以下采样参数组合：
  - 通用任务思考模式：
    temperature=1.0，top_p=0.95，top_k=20，min_p=0.0，presence_penalty=0.0，repetition_penalty=1.0
  - 精确编码任务思考模式（如Web开发）：
    temperature=0.6，top_p=0.95，top_k=20，min_p=0.0，presence_penalty=0.0，repetition_penalty=1.0
  - 指令（非思考）模式：
    temperature=0.7，top_p=0.80，top_k=20，min_p=0.0，presence_penalty=1.5，repetition_penalty=1.0
- 在支持的框架中，可将presence_penalty参数调整在0到2之间以减少无意义重复。但较高的参数值偶尔可能导致语言混杂，并略微降低模型性能。
充足的输出长度：对于大多数查询，建议使用32,768 tokens的输出长度。在数学和编程竞赛等高度复杂问题的基准测试中，建议将最大输出长度设置为81,920 tokens。这为模型提供了足够的空间来生成详细全面的响应，从而提升整体性能。
标准化输出格式：进行基准测试时，建议通过提示词标准化模型输出。
- 数学问题：在提示词中包含“请逐步推理，并将最终答案放在\boxed{}内。”
- 多项选择题：在提示词中添加以下JSON结构以标准化响应：“请在answer字段中仅用选项字母展示您的选择，例如："answer": "C"。”
长视频理解：为优化纯文本和图像的推理效率，已发布的video_preprocessor_config.json中size参数采用保守配置。建议将视频预处理配置文件中的longest_edge参数设置为469,762,048（对应224k视频tokens），以支持小时级视频的更高帧率采样，从而获得更优性能。例如：
```
{"longest_edge": 469762048, "shortest_edge": 4096}
```
或者，通过引擎启动参数覆盖默认值。实现细节请参考：vLLM / SGLang。

引用说明

如果您觉得我们的工作对您有所帮助，欢迎引用我们的成果。

@misc{qwen3.6-27b,
    title  = {{Qwen3.6-27B}: Flagship-Level Coding in a {27B} Dense Model},
    author = {{Qwen Team}},
    month  = {April},
    year   = {2026},
    url    = {https://qwen.ai/blog?id=qwen3.6-27b}
}