HuggingFace镜像/Qwen3.6-35B-A3B-DFlash
模型介绍文件和版本分析
下载使用量0

Qwen3.6-35B-A3B-DFlash

论文 | GitHub | 博客

DFlash 是一种推测式解码方法,它采用轻量级 块扩散 模型并行生成多个 tokens。这是一个草稿模型,必须与 Qwen/Qwen3.6-35B-A3B 配合使用。

DFlash Architecture

快速开始

安装

vLLM(我们通过此 PR 对安装方式进行临时修改,以支持交错式 SWA 并确保正确处理目标隐藏状态,从而实现最佳性能):

uv pip install vllm
uv pip install -U --torch-backend=auto "vllm @ git+https://github.com/vllm-project/vllm.git@refs/pull/40898/head"

SGLang:

uv pip install "git+https://github.com/sgl-project/sglang.git@refs/pull/20547/head#subdirectory=python"

启动服务器

vLLM:

vllm serve Qwen/Qwen3.6-35B-A3B \
  --speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.6-35B-A3B-DFlash", "num_speculative_tokens": 15}' \
  --attention-backend flash_attn \
  --max-num-batched-tokens 32768

SGLang:

# Optional: enable schedule overlapping (experimental, may not be stable)
# export SGLANG_ENABLE_SPEC_V2=1
# export SGLANG_ENABLE_DFLASH_SPEC_V2=1
# export SGLANG_ENABLE_OVERLAP_PLAN_STREAM=1

python -m sglang.launch_server \
    --model-path Qwen/Qwen3.6-35B-A3B \
    --speculative-algorithm DFLASH \
    --speculative-draft-model-path z-lab/Qwen3.6-35B-A3B-DFlash \
    --speculative-num-draft-tokens 16 \
    --tp-size 1 \
    --attention-backend fa3 \
    --mem-fraction-static 0.75 \
    --mamba-scheduler-strategy extra_buffer \
    --trust-remote-code

提示: 对于长上下文或智能体工作负载,添加 --speculative-dflash-draft-window-size WINDOW_SIZE 以启用草稿模型的滑动窗口注意力机制。

使用方法

from openai import OpenAI

client = OpenAI(base_url="http://localhost:30000/v1", api_key="EMPTY")

response = client.chat.completions.create(
    model="Qwen/Qwen3.6-35B-A3B",
    messages=[{"role": "user", "content": "Write a quicksort in Python."}],
    max_tokens=4096,
    temperature=0.0
)
print(response.choices[0].message.content)

基准测试结果

测试环境: 单 NVIDIA B200,SGLang,启用思考模式,最大输出长度 4096。我们报告的是端到端吞吐量,包含预填充时间。可参考我们的 GitHub 仓库 获取复现脚本。

吞吐量与加速比

DFlash 在并发数为 1 时实现了高达 2.9 倍的加速。

每秒令牌数(相对于自回归基线的加速比)

块大小 = 16

任务并发数ARDFlash
Math5001234682 (2.9x)
812663138 (2.5x)
1619544813 (2.5x)
3227556520 (2.4x)
GSM8K1235556 (2.4x)
812362564 (2.1x)
1618863821 (2.0x)
3226995239 (1.9x)
HumanEval1238603 (2.5x)
812552800 (2.2x)
1619444208 (2.2x)
3227675782 (2.1x)
MBPP1235559 (2.4x)
812242538 (2.1x)
1619483816 (2.0x)
3227805378 (1.9x)
MT-Bench1233442 (1.9x)
812382028 (1.6x)
1618852997 (1.6x)
3226334034 (1.5x)
Alpaca1235393 (1.7x)
812211782 (1.5x)
1618442567 (1.4x)
3225793689 (1.4x)

块大小 = 8

任务并发数ARDFlash
Math5001234617 (2.6x)
812662839 (2.2x)
1619544465 (2.3x)
3227556614 (2.4x)
GSM8K1235540 (2.3x)
812362466 (2.0x)
1618863899 (2.1x)
3226995713 (2.1x)
HumanEval1238561 (2.4x)
812552655 (2.1x)
1619444135 (2.1x)
3227676059 (2.2x)
MBPP1235497 (2.1x)
812242324 (1.9x)
1619483636 (1.9x)
3227804884 (1.8x)
MT-Bench1233438 (1.9x)
812382060 (1.7x)
1618853182 (1.7x)
3226334720 (1.8x)
Alpaca1235407 (1.7x)
812211880 (1.5x)
1618442903 (1.6x)
3225794115 (1.6x)

验收长度

任务B8B16
Math5005.567.35
GSM8K5.216.73
HumanEval5.096.44
MBPP4.785.83
MT-Bench4.205.14
Alpaca3.944.62

致谢

特别感谢David Wang为本项目提供的出色工程支持。同时,我们也感谢Modal、InnoMatrix和Yotta Labs提供了用于训练此 draft 模型的计算资源。

引用

如果您觉得 DFlash 有用,请引用我们的工作。如需分享关于 DFlash 的反馈或请求新的模型支持,请填写此表单:DFlash Feedback。

@article{chen2026dflash,
  title   = {{DFlash: Block Diffusion for Flash Speculative Decoding}},
  author  = {Chen, Jian and Liang, Yesheng and Liu, Zhijian},
  journal = {arXiv preprint arXiv:2602.06036},
  year    = {2026}
}