Qwen3.5-0.8B

[!Note] 本仓库包含采用 Hugging Face Transformers 格式的后训练模型的权重及配置文件。

这些模型文件与 Hugging Face Transformers、vLLM、SGLang、KTransformers 等工具兼容。

考虑到其参数规模，该模型的目标应用场景包括原型开发、特定任务微调以及其他研究或开发用途。

近几个月来，我们持续加大对基础模型的研发投入，致力于打造兼具卓越实用性与性能的模型。Qwen3.5 实现了重大突破，它融合了多模态学习、架构效率、强化学习规模以及全球化可访问性等方面的创新成果，旨在为开发者和企业提供前所未有的能力与效率。

Qwen3.5 亮点

Qwen3.5 主要带来了以下增强：

统一视觉-语言基础：通过对多模态 tokens 进行早期融合训练，实现了与 Qwen3 相当的跨代性能，并在推理、编码、智能体及视觉理解等基准测试中全面超越 Qwen3-VL 系列模型。
高效混合架构：门控 Delta 网络结合稀疏混合专家（Mixture-of-Experts）机制，在实现高吞吐量推理的同时，将延迟和成本开销控制在最低水平。
可扩展强化学习泛化：在包含百万智能体的环境中进行大规模强化学习训练，并采用复杂度逐步提升的任务分布，以确保模型在真实世界场景中具备强大的适应能力。
全球化语言覆盖：扩展支持 201 种语言及方言，能够实现包容性的全球部署，并具备细致的文化与区域理解能力。
新一代训练基础设施：多模态训练效率接近纯文本训练的 100%，异步强化学习框架支持大规模智能体架构与环境编排。

更多详情，请参阅我们的博客文章 Qwen3.5。

模型概述

类型：带视觉编码器的因果语言模型
训练阶段：预训练与后训练
语言模型
- 参数数量：0.8B
- 隐藏维度：1024
- 令牌嵌入：248320（已填充）
- 层数：24
- 隐藏层结构：6 × (3 × (门控 DeltaNet → FFN) → 1 × (门控注意力 → FFN))
- 门控 DeltaNet：
  - 线性注意力头数量：V 为 16，QK 为 16
  - 头维度：128
- 门控注意力：
  - 注意力头数量：Q 为 8，KV 为 2
  - 头维度：256
  - 旋转位置嵌入维度：64
- 前馈网络：
  - 中间维度：3584
- 语言模型输出：248320（与令牌嵌入绑定）
- MTP：采用多步训练
上下文长度：原生支持 262,144

基准测试结果

语言能力

	Qwen3-4B-2507	Qwen3-1.7B	Qwen3.5-2B	Qwen3.5-0.8B
非思考模式
MMLU-Pro	69.6	40.2	55.3	29.7
MMLU-Redux	84.2	64.4	69.2	48.5
C-Eval	80.2	61.0	65.2	46.4
SuperGPQA	42.8	21.0	30.4	16.9
IFEval	83.4	68.2	61.2	52.1
MMMLU	64.9	46.7	56.9	34.1
知识与STEM（思考模式）
MMLU-Pro	74.0	56.5	66.5	42.3
MMLU-Redux	86.1	73.9	79.6	59.5
C-Eval	82.2	68.1	73.2	50.5
SuperGPQA	47.8	31.2	37.5	21.3
GPQA	65.8	40.1	51.6	11.9
指令遵循（思考模式）
IFEval	87.4	72.5	78.6	44.0
IFBench	50.4	26.7	41.3	21.0
MultiChallenge	41.7	27.2	33.7	18.9
长上下文（思考模式）
AA-LCR	32.0	6.7	25.6	4.7
LongBench v2	42.8	26.5	38.7	26.1
推理能力（思考模式）
HMMT Feb 25	57.5	10.2	22.9	--
HMMT Nov 25	69.6	8.9	19.6	--
通用智能体（思考模式）
BFCL-V4	39.9	--	43.6	25.3
TAU2-Bench	43.2	--	48.8	11.6
多语言能力（思考模式）
MMMLU	70.8	57.0	63.1	44.3
MMLU-ProX	62.4	49.4	52.3	34.6
NOVA-63	47.1	40.3	46.4	42.4
INCLUDE	64.4	51.8	55.4	40.6
Global PIQA	73.5	63.1	69.3	59.4
PolyMATH	46.2	25.2	26.1	8.2
WMT24++	58.9	39.3	45.8	27.2
MAXIFE	72.1	50.7	60.6	39.2

* TAU2-Bench：我们遵循官方设置，但在航空领域，所有模型均采用 Claude Opus 4.5 系统说明中提出的修复方案进行评估。
* MMLU-ProX：我们报告 29 种语言的平均准确率。
* WMT24++：WMT24 经过难度标注和重新平衡后的更难子集；我们使用 XCOMET-XXL 报告 55 种语言的平均得分。
* MAXIFE：我们报告英语及多语言原始提示（共 23 种设置）的准确率。
* 实验设置：使用 top_p=0.95、top_k=20、存在惩罚=1.5、温度=1.0。
* 空白单元格（--）表示分数尚未公布或不适用。

视觉语言

	Qwen3-VL-4B	Qwen3-VL-2B	Qwen3.5-2B	Qwen3.5-0.8B
STEM与谜题
MMMU	70.8	61.4	64.2/64.2	49/47.4
MMMU-Pro	57.0	42.5	50.3/47.7	31.2/31.4
Mathvista(mini)	79.5	73.6	76.7/73.9	62.2/58.6
DynaMath	74.4	66.7	73.6/69.6	49.9/46.5
ZEROBench	0.0	0.0	1.0/0.0	0.0/0.0
ZEROBench_sub	18.9	13.2	17.1/18.6	12.9/11.4
VlmsAreBlind	68.6	50.0	75.8/74.3	59.4/57.3
通用视觉问答
RealWorldQA	73.2	69.5	74.5/71.2	63.4/61.6
MMStar	73.2	68.1	71.7/68.0	58.3/55.9
MMBench_EN-DEV-v1.1	86.7	81.9	83.3/81.3	69.9/68.0
SimpleVQA	48.8	43.6	38.5/39.5	31.3/30.4
HallusionBench	64.1	54.9	58.0/51.3	53.1/46.7
文本识别与文档理解
MMLongBench-Doc	44.4	33.8	45.4/38.8	33.6/28.1
AI2D_TEST	84.9	80.4	83.3/81.5	69.9/68.7
CC-OCR	73.8	68.3	72.9/75.8	63.2/66.7
OmniDocBench1.5	80.0	65.9	79.8/80.9	61.0/70.6
CharXiv(RQ)	50.3	37.1	58.8/52.6	41.3/38.2
OCRBench	80.8	79.2	84.5/85.4	74.5/79.1
空间智能
RefCOCO(avg)	88.2	84.8	84.8/84.3	79.3/77.8
CountBench	89.4	84.1	91.4/86.8	77.0/68.6
ODInW13	39.4	36.0	35.9/40.5	31.6/33.2
ERQA	47.3	41.8	43.8/33.0	34.5/23.8
EmbSpatialBench	80.7	75.9	77.9/66.4	68.6/54.6
RefSpatialBench	45.3	28.9	32.9/30.0	23.5/21.7
Hypersim	11.9	11.2	12.4/12.4	11.9/11.0
SUNRGBD	28.0	28.6	28.7/25.6	26.1/23.3
Nuscene	4.9	4.0	6.9/8.5	5.7/7.0
视频理解
VideoMME_(带字幕)	76.0	67.9	75.6/--	63.8/--
VideoMME_(无字幕)	68.9	62.1	69.0/--	57.7/--
VideoMMMU	69.4	54.1	62.1/--	44.3/--
MLVU	75.7	69.2	76.2/--	65.6/--
MVBench	69.3	64.5	64.9/--	55.8/--
LVBench	53.5	47.6	57.1/--	45.1/--
MMVU	58.6	48.9	48.6/--	34.3/--
视觉智能体
ScreenSpot Pro	59.5	48.5	--/54.5	--/46.5
医疗视觉问答
SLAKE	65.9	61.1	74.4/67.5	62.6/59.5
PMC-VQA	48.4	42.4	48.8/54.0	40.4/45.5
MedXpertQA-MM	26.3	13.0	26.9/19.1	17.1/25.3

* Qwen3.5模型的分数以思考模式/非思考模式呈现。
* MathVision：我们的模型分数使用固定提示词评估，例如“请逐步推理，并将最终答案放在\boxed{}内。”对于其他模型，我们报告使用和不使用\boxed{}格式运行时的较高分数。
* 实验设置：视频基准测试使用top_p=0.95、top_k=20、presence_penalty=1.5和temperature=1.0。所有其他基准测试采用相同的采样配置，但在思考模式下temperature=0.6。在非思考模式下，采样参数设置为top_p=0.8、top_k=20、presence_penalty=1.5和temperature=0.7。
* 空白单元格（--）表示分数尚未获得或不适用。

快速入门

[!Important] Qwen3.5 模型支持无思考模式和思考模式。Qwen3.5-0.8B 默认运行于无思考模式。如需启用思考模式，请参考此处的示例。

为简化集成流程，我们建议通过 API 使用 Qwen3.5。以下是通过兼容 OpenAI 的 API 使用 Qwen3.5 的指南。

部署 Qwen3.5

Qwen3.5 可通过主流推理框架以 API 形式部署。下文将展示启动 Qwen3.5 模型兼容 OpenAI API 服务的示例命令。

[!Important] 不同框架的推理效率和吞吐量差异显著。建议使用最新版本的框架，以确保最佳性能和兼容性。对于生产工作负载或高吞吐量场景，强烈推荐使用 SGLang、KTransformers 或 vLLM 等专用部署引擎。

[!Important] 该模型的默认上下文长度为 262,144 个 token。若遇到内存不足（OOM）错误，请考虑减小上下文窗口。

SGLang

SGLang 是一个用于大型语言模型和视觉语言模型的快速部署框架。 Qwen3.5 需要使用该开源仓库主分支的 SGLang，可在全新环境中通过以下命令安装：

uv pip install 'git+https://github.com/sgl-project/sglang.git#subdirectory=python&egg=sglang[all]'

有关更多详细信息，请参见其文档。

以下操作将在 http://localhost:8000/v1 创建 API 端点：

标准版：可使用以下命令创建最大上下文长度为 262,144 tokens 的 API 端点，该端点在 8 个 GPU 上使用张量并行。
```
python -m sglang.launch_server --model-path Qwen/Qwen3.5-0.8B --port 8000 --tp-size 1 --mem-fraction-static 0.8 --context-length 262144
```

工具调用：要支持工具调用，可使用以下命令。

python -m sglang.launch_server --model-path Qwen/Qwen3.5-0.8B --port 8000 --tp-size 1 --mem-fraction-static 0.8 --context-length 262144 --tool-call-parser qwen3_coder

多 token 预测（MTP）：建议使用以下命令进行 MTP：

python -m sglang.launch_server --model-path Qwen/Qwen3.5-0.8B --port 8000 --tp-size 1 --mem-fraction-static 0.8 --context-length 262144 --speculative-algo NEXTN --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4

vLLM

vLLM 是一个用于大型语言模型（LLMs）的高吞吐量且内存高效的推理和服务引擎。 Qwen3.5 需要使用开源仓库主分支的 vLLM，可在全新环境中通过以下命令安装：

uv pip install vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly

有关更多详情，请参见其文档。

如需详细的Qwen3.5使用指南，请参阅vLLM Qwen3.5使用说明。

以下操作将在http://localhost:8000/v1创建API端点：

标准版：以下命令可用于创建一个最大上下文长度为262,144 tokens的API端点，并在8个GPU上使用张量并行。
```
vllm serve Qwen/Qwen3.5-0.8B --port 8000 --tensor-parallel-size 1 --max-model-len 262144 
```

工具调用：要支持工具使用，可使用以下命令。

vllm serve Qwen/Qwen3.5-0.8B --port 8000 --tensor-parallel-size 1 --max-model-len 262144 --enable-auto-tool-choice --tool-call-parser qwen3_coder

多 token 预测（MTP）：推荐使用以下命令进行MTP：

vllm serve Qwen/Qwen3.5-0.8B --port 8000 --tensor-parallel-size 1 --max-model-len 262144 --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'

纯文本模式：以下命令会跳过视觉编码器和多模态分析，以释放内存用于额外的KV缓存：
```
vllm serve Qwen/Qwen3.5-0.8B --port 8000 --tensor-parallel-size 1 --max-model-len 262144 --language-model-only
```

KTransformers

KTransformers是一个灵活的框架，可通过CPU-GPU异构计算体验前沿的LLM推理优化。要使用KTransformers运行Qwen3.5，请参见KTransformers部署指南。

Hugging Face Transformers

Hugging Face Transformers包含一个轻量级服务器，可用于快速测试和中等负载部署。运行Qwen3.5需要最新版本的transformers：

pip install "transformers[serving] @ git+https://github.com/huggingface/transformers.git@main"

有关更多详情，请参见其文档。同时，请确保已安装torchvision和pillow。

然后，运行transformers serve以启动服务器，其API端点位于http://localhost:8000/v1；如果有可用的加速器，服务器会将模型部署到加速器上：

transformers serve --force-model Qwen/Qwen3.5-0.8B --port 8000 --continuous-batching

通过对话补全 API 使用 Qwen3.5

对话补全 API 可通过标准 HTTP 请求或 OpenAI SDK 访问。这里，我们展示使用 OpenAI Python SDK 的示例。

开始之前，请确保已安装该 SDK，并配置好 API 密钥和 API 基础 URL，例如：

pip install -U openai

# Set the following accordingly
export OPENAI_BASE_URL="http://localhost:8000/v1"
export OPENAI_API_KEY="EMPTY"

[!Tip] 我们建议使用以下一组采样参数进行生成

文本任务非思考模式：temperature=1.0, top_p=1.00, top_k=20, min_p=0.0, presence_penalty=2.0, repetition_penalty=1.0

多模态（VL）任务非思考模式：temperature=0.7, top_p=0.80, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

文本任务思考模式：temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

多模态（VL）或精确编码（如 Web 开发）任务思考模式：temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0

请注意，不同推理框架对采样参数的支持情况有所不同。

纯文本输入

from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [
    {"role": "user", "content": "Give me a short introduction to large language models."},
]

chat_response = client.chat.completions.create(
    model="Qwen/Qwen3.5-0.8B",
    messages=messages,
    max_tokens=32768,
    temperature=1.0,
    top_p=1.0,
    presence_penalty=2.0,
    extra_body={
        "top_k": 20,
    }, 
)
print("Chat response:", chat_response)

图像输入

from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image_url",
                "image_url": {
                    "url": "https://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3.5/demo/RealWorld/RealWorld-04.png"
                }
            },
            {
                "type": "text",
                "text": "Where is this?"
            }
        ]
    }
]

chat_response = client.chat.completions.create(
    model="Qwen/Qwen3.5-0.8B",
    messages=messages,
    max_tokens=32768,
    temperature=0.7,
    top_p=0.8,
    presence_penalty=1.5,
    extra_body={
        "top_k": 20,
    }, 
)
print("Chat response:", chat_response)

视频输入

from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "video_url",
                "video_url": {
                    "url": "https://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3.5/demo/video/N1cdUjctpG8.mp4"
                }
            },
            {
                "type": "text",
                "text": "Summarize the video content."
            }
        ]
    }
]

# When vLLM is launched with `--media-io-kwargs '{"video": {"num_frames": -1}}'`,
# video frame sampling can be configured via `extra_body` (e.g., by setting `fps`).
# This feature is currently supported only in vLLM.
#
# By default, `fps=2` and `do_sample_frames=True`.
# With `do_sample_frames=True`, you can customize the `fps` value to set your desired video sampling rate.
chat_response = client.chat.completions.create(
    model="Qwen/Qwen3.5-0.8B",
    messages=messages,
    max_tokens=32768,
    temperature=0.7,
    top_p=0.8,
    presence_penalty=1.5,
    extra_body={
        "top_k": 20,
        "mm_processor_kwargs": {"fps": 2, "do_sample_frames": True},
    }, 
)

print("Chat response:", chat_response)

思考模式

[!Important] Qwen3.5 不正式支持 Qwen3 的软切换，即 /think 和 /nothink。

您可以通过配置 API 参数让模型在响应前进行思考。例如，

from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [
    {"role": "user", "content": "Type \"I love Qwen3.5\" backwards"},
]

chat_response = client.chat.completions.create(
    model="Qwen/Qwen3.5-0.8B",
    messages=messages,
    max_tokens=81920,
    temperature=1.0,
    top_p=0.95,
    presence_penalty=1.5,
    extra_body={
        "top_k": 20,
        "enable_thinking": True,
    }, 
)
print("Chat response:", chat_response)

[!Important] 在思考模式下，我们观察到当使用推荐的采样参数时，Qwen3.5-0.8B 相较于其他 Qwen3.5 模型更容易陷入思考循环，这可能导致其无法正常终止生成。我们建议针对具体使用场景进一步调整采样参数，并利用 API 的流式生成模式（如支持）以便及时检测和中断此类异常生成行为。

智能体使用

Qwen3.5 具备出色的工具调用能力。

Qwen-Agent

我们推荐使用 Qwen-Agent 快速构建基于 Qwen3.5 的智能体应用。

您可以通过 MCP 配置文件定义可用工具，使用 Qwen-Agent 的集成工具，或自行集成其他工具。

import os
from qwen_agent.agents import Assistant

# Define LLM
# Using OpenAI-compatible API endpoint. The API backend should disable response parsers.
llm_cfg = {
    # Use your own model service compatible with OpenAI API by vLLM/SGLang:
    'model': 'Qwen/Qwen3.5-0.8B',
    'model_type': 'qwenvl_oai',
    'model_server': 'http://localhost:8000/v1',  # api_base
    'api_key': 'EMPTY',

    'generate_cfg': {
        'use_raw_api': True,  
        # Pass the parameter of whether to enable thinking mode in this way
        # 'extra_body': {
        #    'chat_template_kwargs': {'enable_thinking': True}
        # },
    },
}

# Define Tools
tools = [
    {'mcpServers': {  # You can specify the MCP configuration file
            "filesystem": {
                "command": "npx",
                "args": ["-y", "@modelcontextprotocol/server-filesystem", "/Users/xxxx/Desktop"]
            }
        }
    }
]

# Define Agent
bot = Assistant(llm=llm_cfg, function_list=tools)

# Streaming generation
messages = [{'role': 'user', 'content': 'Help me organize my desktop.'}]
for responses in bot.run(messages=messages):
    pass
print(responses)

# Streaming generation
messages = [{'role': 'user', 'content': 'Develop a dog website and save it on the desktop'}]
for responses in bot.run(messages=messages):
    pass
print(responses)

Qwen Code

Qwen Code 是一款面向终端的开源 AI 智能体，针对 Qwen 模型进行了优化。它能帮助您理解大型代码库、自动化繁琐工作，从而加快开发交付速度。

更多信息，请参阅 Qwen Code。

最佳实践

为实现最佳性能，我们建议采用以下设置：

采样参数：
- 建议根据模式和任务类型使用以下采样参数组合：
  - 文本任务非思考模式：
    temperature=1.0，top_p=1.00，top_k=20，min_p=0.0，presence_penalty=2.0，repetition_penalty=1.0
  - 视觉语言（VL）任务非思考模式：
    temperature=0.7，top_p=0.80，top_k=20，min_p=0.0，presence_penalty=1.5，repetition_penalty=1.0
  - 文本任务思考模式：
    temperature=1.0，top_p=0.95，top_k=20，min_p=0.0，presence_penalty=1.5，repetition_penalty=1.0
  - 视觉语言任务或精确编码任务（如 Web 开发）思考模式：
    temperature=0.6，top_p=0.95，top_k=20，min_p=0.0，presence_penalty=0.0，repetition_penalty=1.0
- 对于支持的框架，您可以将 presence_penalty 参数在 0 到 2 之间进行调整，以减少无意义的重复。但请注意，使用较高的值偶尔可能导致语言混用，并使模型性能略有下降。
充足的输出长度：对于大多数查询，建议使用 32,768 个 token 的输出长度。在对高度复杂问题（如数学和编程竞赛中的题目）进行基准测试时，建议将最大输出长度设置为 81,920 个 token。这能为模型提供足够的空间来生成详细且全面的响应，从而提升其整体性能。
标准化输出格式：进行基准测试时，建议通过提示词来标准化模型输出。
- 数学问题：在提示词中包含“请逐步推理，并将最终答案放在 \boxed{} 内。”
- 多项选择题：在提示词中添加以下 JSON 结构以标准化响应：“请在 answer 字段中仅用选项字母展示您的选择，例如："answer": "C"。”
历史记录中不含思考内容：在多轮对话中，历史模型输出应仅包含最终输出部分，无需包含思考内容。这一点在提供的 Jinja2 聊天模板中已实现。但对于未直接使用 Jinja2 聊天模板的框架，需由开发者确保遵循此最佳实践。
长视频理解：为优化纯文本和图像的推理效率，发布的 video_preprocessor_config.json 中的 size 参数采用了保守配置。建议将 video_preprocessor_config 文件中的 longest_edge 参数设置为 469,762,048（对应 224k 视频 token），以实现对小时级视频的更高帧率采样，从而获得更优性能。例如：
```
{"longest_edge": 469762048, "shortest_edge": 4096}
```
或者，通过引擎启动参数覆盖默认值。实现细节请参考：vLLM / SGLang。

引用

如果您觉得我们的工作有帮助，欢迎引用我们的成果。

@misc{qwen3.5,
    title  = {{Qwen3.5}: Towards Native Multimodal Agents},
    author = {{Qwen Team}},
    month  = {February},
    year   = {2026},
    url    = {https://qwen.ai/blog?id=qwen3.5}
}