HuggingFace镜像/Qwen3.6-27B-MTP-GGUF
模型介绍文件和版本分析
下载使用量0

Qwen3.6-27B with MTP

借助 MTP 提速 2.5 倍 · 48 GB 显存支持 262K 上下文 · 修复聊天模板

具备视觉、思维与工具调用能力的 270 亿参数密集型模型——支持自推测解码,
可配置 KV 缓存(f16 精度优先,q8_0/q4_0 适合更长上下文),修复 Jinja 模板(工具调用与思维链在 C++ 运行时可正常工作),
并提供兼容 OpenAI 和 Anthropic API 的服务端。

一行命令。双 API 支持。无需云端。


警告: 当视觉功能(图像输入)与 MTP 推测解码一同使用时,会导致 llama.cpp 崩溃(PR #22673 缺陷,全平台)。纯文本 MTP 可实现 2.5 倍速度提升。如需使用视觉功能,请启动服务端时不带 --spec-type mtp 参数——详见视觉功能章节。


启动服务端

您需要基于 PR #22673 或更新版本构建的 llama.cpp。Homebrew 及稳定版均不支持 MTP GGUF 格式。

构建支持 MTP 的 llama.cpp
git clone --depth 1 https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
git fetch origin pull/22673/head:mtp-pr && git checkout mtp-pr

cmake -B build -DGGML_METAL=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build --target llama-cli llama-server
llama-server -m Qwen3.6-27B-Q5_K_M-mtp.gguf \
  --spec-type mtp --spec-draft-n-max 3 \
  --cache-type-k q8_0 --cache-type-v q8_0 \
  -np 1 -c 262144 --temp 0.7 --top-k 20 -ngl 99 --port 8081

就是这样。一条命令实现三项优化:

标志功能说明效果
--spec-type mtp --spec-draft-n-max 3多令牌预测(模型内置)生成速度提升 2.5 倍
--cache-type-k q8_0 --cache-type-v q8_08 位 KV 缓存(替代 16 位)KV 内存减半,质量损失可忽略不计
-c 262144262K 上下文窗口在配备 q8_0 KV 的 48 GB Mac 上实现完整原生上下文

根据您的硬件调整 -m、-c 和 --cache-type-k/v 参数 — 详见下方的我应该下载哪个量化版本?表格。


我应该下载哪个量化版本?

在下方找到您的硬件 — 每行提供了最适合的量化版本、KV 缓存类型以及可容纳的最大上下文长度。

Apple Silicon

Qwen3.6-27B 是一个混合模型 — 只有65 层中的 16 层使用 KV 缓存(已验证)。其余 48 层为线性注意力(固定 898 MiB 循环状态)。KV 内存比标准密集型模型少约 4 倍。不支持此特性的运行时(如 vllm)会为所有 65 层分配 KV,导致内存占用显著增加。

以下数值为总内存使用量(模型 + KV 缓存 + 0.9 GB 循环状态)。必须为 macOS 预留 ≥ 8 GB(16 GB Mac 除外)。

内存量化版本KV 缓存最大上下文总使用量视觉功能
16 GBIQ2_Mq8_042K12.0 GB✗
24 GBIQ3_M46K16.0 GB✗
24 GBIQ3_Mq8_091K16.0 GB✗
32 GBQ5_K_M74K24.0 GB✗
32 GBQ5_K_Mq8_0147K24.0 GB✗
32 GBQ4_K_M99K24.0 GB✓
48 GBQ6_K262K39.7 GB✓
48 GBQ8_0173K40.0 GB✓
48 GBQ8_0q8_0262K37.3 GB✓
64 GBQ8_0262K45.8 GB✓
96 GBQ8_0262K45.8 GB✓

NVIDIA GPU

模型内存与 Apple Silicon 相同,另加约 1 GB CUDA 开销。

显存量化版本KV 缓存最大上下文总显存使用量视觉功能
12 GBIQ2_Mq8_011K12.0 GB✗
16 GBIQ3_M30K16.0 GB✗
16 GBIQ3_Mq8_060K16.0 GB✗
24 GBQ4_K_M83K24.0 GB✓
24 GBQ4_K_Mq8_0167K24.0 GB✓
24 GBQ5_K_M58K24.0 GB✗
48 GBQ6_K262K40.7 GB✓
48 GBQ8_0262K46.8 GB✓
80 GBQ8_0262K46.8 GB✓

16 GB Mac: IQ2_M/q8_0 — 42K 纯文本。无视觉功能。

24 GB Mac: IQ3_M — 46K(f16 KV)或 91K(q8_0)。在 32–65K 上下文时支持视觉功能。

32 GB Mac: Q5_K_M — 74K 纯文本(f16 KV),147K(q8_0)。Q4_K_M 支持 99K 上下文的视觉功能。

48 GB Mac: Q6_K/f16 KV — 262K 上下文并支持视觉功能。Q8_0/q8_0 KV 可在更高模型质量下实现 262K 上下文。

64 GB+ Mac: Q8_0/f16 KV — 262K 上下文并支持视觉功能。在实际速度下实现最高质量。

12 GB GPU: IQ2_M/q8_0 — 11K。非常有限,无视觉功能。

16 GB GPU: IQ3_M — 30K(f16 KV)或 60K(q8_0)。无视觉功能。

24 GB GPU: Q4_K_M — 83K 上下文并支持视觉功能(f16 KV)。Q5_K_M — 58K 纯文本(f16 KV),116K(q8_0)。

48 GB+ GPU: Q6_K/f16 KV — 262K 上下文并支持视觉功能。Q8_0 可获得最高质量。

为获得最佳质量,请将 KV 缓存保留为 f16(表格中对应列为空)。仅当 f16 无法提供足够上下文时才使用 q8_0 KV。q4_0 KV 的上下文不应超过 64K。

视觉功能会为 mmproj 额外增加约 0.9 GB 内存。macOS 需要**≥ 8 GB** 内存供自身使用(16 GB Mac 除外 — 约使用 4 GB)。您可以通过提高有线内存限制来增加可用内存,例如对于 96 GB Mac:sudo sysctl iogpu.wired_limit_mb=90112(88 GB)。NVIDIA 会为 CUDA 预留约 1 GB 内存。


API 使用方法

兼容 OpenAI(/v1/chat/completions)

curl http://localhost:8081/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"qwen","messages":[{"role":"user","content":"Hello"}]}'

可与任何 OpenAI 客户端配合使用 — 只需将其指向 http://localhost:8081/v1 即可。

兼容 Anthropic(/v1/messages)

curl http://localhost:8081/v1/messages \
  -H "Content-Type: application/json" \
  -d '{"model":"qwen","max_tokens":1024,"messages":[{"role":"user","content":"Hello"}]}'

可与任何 Anthropic 客户端配合使用——服务器原生支持 Messages API,包括流式传输、工具调用和视觉功能。

Claude 代码

ANTHROPIC_BASE_URL=http://127.0.0.1:8081 claude

Claude Code 使用 Anthropic Messages API。只需设置这个环境变量,它就会与您本地的 Qwen3.6-27B 对话,而非云端。

工具使用(两个 API 均适用)

curl http://localhost:8081/v1/messages \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen",
    "max_tokens": 1024,
    "tools": [{
      "name": "get_weather",
      "description": "Get current weather for a location",
      "input_schema": {
        "type": "object",
        "properties": {"location": {"type": "string"}},
        "required": ["location"]
      }
    }],
    "messages": [{"role": "user", "content": "What is the weather in Paris?"}]
  }'

愿景

MTP + 视觉功能在 PR #22673 上崩溃(所有平台,已确认的 bug)。对于图像输入,请不要使用 --spec-type mtp 启动服务器:

llama-server -m Qwen3.6-27B-Q5_K_M-mtp.gguf \
  --mmproj mmproj-Qwen3.6-27B-f16.gguf \
  --cache-type-k q8_0 --cache-type-v q8_0 \
  -c 262144 --temp 0.7 --top-k 20 -ngl 99 --port 8081
curl http://localhost:8081/v1/messages \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen",
    "max_tokens": 1024,
    "messages": [{"role": "user", "content": [
      {"type": "image", "source": {"type": "base64", "media_type": "image/jpeg", "data": "'$(base64 < photo.jpg)'"}},
      {"type": "text", "text": "Describe this image"}
    ]}]
  }'

直接命令行界面使用

# Text generation
llama-cli -m Qwen3.6-27B-Q5_K_M-mtp.gguf \
  --spec-type mtp --spec-draft-n-max 3 \
  --cache-type-k q8_0 --cache-type-v q8_0 \
  -np 1 -c 4096 -n 2048 --temp 0.7 -ngl 99 \
  -p "Your prompt here"

# Vision (MTP does not work with images — omit --spec-type mtp)
llama-cli -m Qwen3.6-27B-Q5_K_M-mtp.gguf \
  --mmproj mmproj-Qwen3.6-27B-f16.gguf \
  --cache-type-k q8_0 --cache-type-v q8_0 \
  -c 4096 -n 2048 --temp 0.7 -ngl 99 \
  --image photo.jpg \
  -p "Describe this image"

KV 缓存选项

--cache-type-k 和 --cache-type-v 标志用于控制 KV 缓存精度。精度越低,占用内存越少,相同硬件可支持的上下文越长。

类型每值位数KV 大小(80K 上下文)质量速度使用场景
f16165.3 GB完整基准最佳质量——在内存允许时使用
q8_082.8 GB损失可忽略比 f16 更快当 f16 KV 无法提供足够上下文时
q4_041.5 GB轻微损失略慢内存有限时最大化上下文(仅支持 ≤64K)

建议:保持 KV 为 f16 以获得最佳质量。当 f16 无法提供足够上下文时,使用 q8_0。仅在内存紧张时保留 q4_0 使用,且上下文最多为 64K。

对硬件要求的影响(Q5_K_M,80K 上下文):

KV 类型模型 + 循环 + KV硬件
f1624 GB48 GB Mac
q8_022 GB32 GB Mac

推测解码模式

MTP(推荐 — 快 2.5 倍)

该模型通过自身的 MTP 头在每步预测额外 5 个 token,然后通过一次验证完成。无需额外模型。

--spec-type mtp --spec-draft-n-max 3 -np 1

MTP 当前需要使用 -np 1(单序列模式)。如果不使用该参数,你将收到以下提示:MTP currently supports only n_parallel=1。

调整 --spec-draft-n-max:3 是通用场景下的最佳值(接受率为 83%)。1–2 的值更为保守;4–5 的值会在被拒绝的 token 上浪费计算资源。

草稿模型(速度提升约 2.3 倍)

搭配使用更小的、共享相同分词器的 Qwen 3.5/3.6 模型。

llama-cli -m Qwen3.6-27B-Q5_K_M-mtp.gguf \
  -md Qwen3.5-0.8B-Q8_0.gguf \
  --spec-draft-n-max 10 -ngl 99 -ngld 99 \
  -c 4096 -n 2048 --temp 0.7 \
  -p "Your prompt"

ngram-mod(无需额外模型,有利于重复提示)

使用来自先前提示的缓存 n-gram。

--spec-type ngram-mod \
--spec-ngram-mod-n-match 24 \
--spec-ngram-mod-n-min 48 \
--spec-ngram-mod-n-max 64 \
--repeat-penalty 1.0

下载

文件大小最低配置(4K 上下文)推荐配置(80K 上下文)最高配置(262K 上下文)
Qwen3.6-27B-F16-mtp.gguf51 GB64 GB Mac · 80 GB GPU64 GB Mac · 80 GB GPU96 GB Mac · 80 GB GPU
Qwen3.6-27B-Q8_0-mtp.gguf27 GB48 GB Mac · 48 GB GPU48 GB Mac · 48 GB GPU48 GB Mac · 48 GB GPU
Qwen3.6-27B-Q6_K-mtp.gguf21 GB32 GB Mac · 24 GB GPU48 GB Mac · 48 GB GPU48 GB Mac · 48 GB GPU
Qwen3.6-27B-Q5_K_M-mtp.gguf18 GB32 GB Mac · 24 GB GPU32 GB Mac · 24 GB GPU48 GB Mac · 48 GB GPU
Qwen3.6-27B-Q4_K_M-mtp.gguf16 GB32 GB Mac · 24 GB GPU32 GB Mac · 24 GB GPU48 GB Mac · 48 GB GPU
Qwen3.6-27B-IQ4_XS-mtp.gguf14 GB24 GB Mac · 24 GB GPU32 GB Mac · 24 GB GPU32 GB Mac · 48 GB GPU
Qwen3.6-27B-IQ3_M-mtp.gguf12 GB24 GB Mac · 16 GB GPU24 GB Mac · 24 GB GPU32 GB Mac · 24 GB GPU
Qwen3.6-27B-IQ2_M-mtp.gguf10 GB16 GB Mac · 16 GB GPU24 GB Mac · 16 GB GPU32 GB Mac · 24 GB GPU
mmproj-Qwen3.6-27B-f16.gguf885 MB视觉编码器(可选,任何层级)——

所有层级均包含 MTP 头。F16 和 Q8_0 为直接转换版本;其他所有层级均基于 Q8_0 并使用重要性矩阵进行量化。Q5_K_M 是性价比之选——若内存紧张,可使用 Q4_K_M;若追求最高质量,可选择 Q8_0。F16 版本可供实验使用,但速度明显慢于 Q8_0。GPU 指 NVIDIA 显卡(RTX 3060 = 12 GB,RTX 3090/4090 = 24 GB,A6000 = 48 GB,A100 = 80 GB)。

硬件数据假设“最低配置”(4K)使用 f16 KV 缓存,“推荐配置”(80K)和“最高配置”(262K)使用 q8_0 KV 缓存。若要在较低配置硬件上达到推荐或最大上下文,可添加参数 --cache-type-k q8_0 --cache-type-v q8_0。


内存要求

基于 Apple Silicon(统一内存)的近似显存需求,以 Q5_K_M 为参考。包含 0.9 GB 循环状态(固定大小,不随上下文长度变化)。65 层中仅 16 层使用 KV 缓存,其余 48 层使用线性注意力。

上下文模型KV(f16)KV(q8_0)总计(f16)总计(q8_0)最低 Mac 配置
4K18 GB0.3 GB0.1 GB19 GB19 GB32 GB
8K18 GB0.5 GB0.3 GB19 GB19 GB32 GB
32K18 GB2.1 GB1.0 GB20 GB20 GB32 GB
64K18 GB4.1 GB2.1 GB21 GB21 GB32 GB
80K(推荐)18 GB5.2 GB2.6 GB22 GB22 GB32 GB
128K18 GB8.3 GB4.1 GB25 GB23 GB32 GB
262K(原生最大)18 GB17.0 GB8.5 GB34 GB27 GB48 GB

“总计”= 模型 + 循环状态 + KV 缓存。macOS 需至少 8 GB(16 GB Mac 除外)。若启用视觉功能:需额外添加 0.9 GB 用于 mmproj。

所有量化层级的内存需求(4K 上下文,q8_0 KV)
量化版本模型KV + 循环状态总计最低 Mac 配置
Q8_027 GB1.0 GB28 GB48 GB
Q6_K21 GB1.0 GB22 GB32 GB
Q5_K_M18 GB1.0 GB19 GB32 GB
Q4_K_M16 GB1.0 GB17 GB32 GB
IQ4_XS14 GB1.0 GB15 GB24 GB
IQ3_M12 GB1.0 GB13 GB24 GB
IQ2_M10 GB1.0 GB11 GB16 GB

系统提示词

第一行必须是:

You are Qwen, created by Alibaba Cloud. You are a helpful assistant.

没有它,模型的表现会不佳。在该行之后附加任何内容。


思考切换

在任何消息中加入 <|think_on|> 或 <|think_off|> 即可切换思考模式。模板会剥离该标签,因此模型永远不会看到它。

System: You are a coding assistant. <|think_off|>
User: What's 2+2?

快速回答,无需内部推理。

System: You are a coding assistant. <|think_on|>
User: Implement a red-black tree in Rust.

模型会逐步思考,然后给出答案。


采样

来自Qwen官方作者。为思考模式预留128K+上下文。

模式temptop_ptop_krepeat_penalty
思考(编码)0.60.95201.0
思考(通用)1.00.95201.0
非思考(通用)0.70.8201.0

兼容性

运行时状态原因
llama.cpp(PR #22673+)完全可用这是目标运行时
llama.cpp(稳定版/ homebrew)无法加载missing tensor — MTP头未被识别
LM Studio无法加载相同问题 — 捆绑的llama.cpp拒绝MTP GGUF文件
Ollama无法加载暂不支持推测解码
koboldcpp未知取决于捆绑的llama.cpp版本

LM Studio用户: 请改用 MLX 8-bit 或 MLX 4-bit — 完整的视觉+工具+思考能力,无MTP。


聊天模板修复

捆绑的Jinja模板修复了官方Qwen 3.6模板中的几个bug:

  • C++引擎上工具调用崩溃。 官方模板使用Python的|items过滤器和|safe,这些在C++ Jinja运行时(llama.cpp、LM Studio)中不存在。此模板使用直接字典键查找。
  • developer角色崩溃。 现代API发送message.role == "developer"。官方模板会抛出异常。此模板将其映射为system。
  • 空preserve_thinking垃圾信息。 官方模板在每个过往对话轮次都包裹空的`