[!Note] 本仓库包含采用 Hugging Face Transformers 格式的后训练模型的权重及配置文件。
这些模型文件与 Hugging Face Transformers、vLLM、SGLang、KTransformers 等工具兼容。
考虑到其参数规模,该模型的目标应用场景包括原型开发、特定任务微调以及其他研究或开发用途。
近几个月来,我们持续加大对基础模型的研发投入,致力于打造兼具卓越实用性与性能的模型。Qwen3.5 实现了重大突破,它融合了多模态学习、架构效率、强化学习规模以及全球化可访问性等方面的创新成果,旨在为开发者和企业提供前所未有的能力与效率。
Qwen3.5 主要带来了以下增强:
统一视觉-语言基础:通过对多模态 tokens 进行早期融合训练,实现了与 Qwen3 相当的跨代性能,并在推理、编码、智能体及视觉理解等基准测试中全面超越 Qwen3-VL 系列模型。
高效混合架构:门控 Delta 网络结合稀疏混合专家(Mixture-of-Experts)机制,在实现高吞吐量推理的同时,将延迟和成本开销控制在最低水平。
可扩展强化学习泛化:在包含百万智能体的环境中进行大规模强化学习训练,并采用复杂度逐步提升的任务分布,以确保模型在真实世界场景中具备强大的适应能力。
全球化语言覆盖:扩展支持 201 种语言及方言,能够实现包容性的全球部署,并具备细致的文化与区域理解能力。
新一代训练基础设施:多模态训练效率接近纯文本训练的 100%,异步强化学习框架支持大规模智能体架构与环境编排。
更多详情,请参阅我们的博客文章 Qwen3.5。
| Qwen3-4B-2507 | Qwen3-1.7B | Qwen3.5-2B | Qwen3.5-0.8B | |
|---|---|---|---|---|
| 非思考模式 | ||||
| MMLU-Pro | 69.6 | 40.2 | 55.3 | 29.7 |
| MMLU-Redux | 84.2 | 64.4 | 69.2 | 48.5 |
| C-Eval | 80.2 | 61.0 | 65.2 | 46.4 |
| SuperGPQA | 42.8 | 21.0 | 30.4 | 16.9 |
| IFEval | 83.4 | 68.2 | 61.2 | 52.1 |
| MMMLU | 64.9 | 46.7 | 56.9 | 34.1 |
| 知识与STEM(思考模式) | ||||
| MMLU-Pro | 74.0 | 56.5 | 66.5 | 42.3 |
| MMLU-Redux | 86.1 | 73.9 | 79.6 | 59.5 |
| C-Eval | 82.2 | 68.1 | 73.2 | 50.5 |
| SuperGPQA | 47.8 | 31.2 | 37.5 | 21.3 |
| GPQA | 65.8 | 40.1 | 51.6 | 11.9 |
| 指令遵循(思考模式) | ||||
| IFEval | 87.4 | 72.5 | 78.6 | 44.0 |
| IFBench | 50.4 | 26.7 | 41.3 | 21.0 |
| MultiChallenge | 41.7 | 27.2 | 33.7 | 18.9 |
| 长上下文(思考模式) | ||||
| AA-LCR | 32.0 | 6.7 | 25.6 | 4.7 |
| LongBench v2 | 42.8 | 26.5 | 38.7 | 26.1 |
| 推理能力(思考模式) | ||||
| HMMT Feb 25 | 57.5 | 10.2 | 22.9 | -- |
| HMMT Nov 25 | 69.6 | 8.9 | 19.6 | -- |
| 通用智能体(思考模式) | ||||
| BFCL-V4 | 39.9 | -- | 43.6 | 25.3 |
| TAU2-Bench | 43.2 | -- | 48.8 | 11.6 |
| 多语言能力(思考模式) | ||||
| MMMLU | 70.8 | 57.0 | 63.1 | 44.3 |
| MMLU-ProX | 62.4 | 49.4 | 52.3 | 34.6 |
| NOVA-63 | 47.1 | 40.3 | 46.4 | 42.4 |
| INCLUDE | 64.4 | 51.8 | 55.4 | 40.6 |
| Global PIQA | 73.5 | 63.1 | 69.3 | 59.4 |
| PolyMATH | 46.2 | 25.2 | 26.1 | 8.2 |
| WMT24++ | 58.9 | 39.3 | 45.8 | 27.2 |
| MAXIFE | 72.1 | 50.7 | 60.6 | 39.2 |
* TAU2-Bench:我们遵循官方设置,但在航空领域,所有模型均采用 Claude Opus 4.5 系统说明中提出的修复方案进行评估。
* MMLU-ProX:我们报告 29 种语言的平均准确率。
* WMT24++:WMT24 经过难度标注和重新平衡后的更难子集;我们使用 XCOMET-XXL 报告 55 种语言的平均得分。
* MAXIFE:我们报告英语及多语言原始提示(共 23 种设置)的准确率。
* 实验设置:使用 top_p=0.95、top_k=20、存在惩罚=1.5、温度=1.0。
* 空白单元格(--)表示分数尚未公布或不适用。
| Qwen3-VL-4B | Qwen3-VL-2B | Qwen3.5-2B | Qwen3.5-0.8B | |
|---|---|---|---|---|
| STEM与谜题 | ||||
| MMMU | 70.8 | 61.4 | 64.2/64.2 | 49/47.4 |
| MMMU-Pro | 57.0 | 42.5 | 50.3/47.7 | 31.2/31.4 |
| Mathvista(mini) | 79.5 | 73.6 | 76.7/73.9 | 62.2/58.6 |
| DynaMath | 74.4 | 66.7 | 73.6/69.6 | 49.9/46.5 |
| ZEROBench | 0.0 | 0.0 | 1.0/0.0 | 0.0/0.0 |
| ZEROBench_sub | 18.9 | 13.2 | 17.1/18.6 | 12.9/11.4 |
| VlmsAreBlind | 68.6 | 50.0 | 75.8/74.3 | 59.4/57.3 |
| 通用视觉问答 | ||||
| RealWorldQA | 73.2 | 69.5 | 74.5/71.2 | 63.4/61.6 |
| MMStar | 73.2 | 68.1 | 71.7/68.0 | 58.3/55.9 |
| MMBenchEN-DEV-v1.1 | 86.7 | 81.9 | 83.3/81.3 | 69.9/68.0 |
| SimpleVQA | 48.8 | 43.6 | 38.5/39.5 | 31.3/30.4 |
| HallusionBench | 64.1 | 54.9 | 58.0/51.3 | 53.1/46.7 |
| 文本识别与文档理解 | ||||
| MMLongBench-Doc | 44.4 | 33.8 | 45.4/38.8 | 33.6/28.1 |
| AI2D_TEST | 84.9 | 80.4 | 83.3/81.5 | 69.9/68.7 |
| CC-OCR | 73.8 | 68.3 | 72.9/75.8 | 63.2/66.7 |
| OmniDocBench1.5 | 80.0 | 65.9 | 79.8/80.9 | 61.0/70.6 |
| CharXiv(RQ) | 50.3 | 37.1 | 58.8/52.6 | 41.3/38.2 |
| OCRBench | 80.8 | 79.2 | 84.5/85.4 | 74.5/79.1 |
| 空间智能 | ||||
| RefCOCO(avg) | 88.2 | 84.8 | 84.8/84.3 | 79.3/77.8 |
| CountBench | 89.4 | 84.1 | 91.4/86.8 | 77.0/68.6 |
| ODInW13 | 39.4 | 36.0 | 35.9/40.5 | 31.6/33.2 |
| ERQA | 47.3 | 41.8 | 43.8/33.0 | 34.5/23.8 |
| EmbSpatialBench | 80.7 | 75.9 | 77.9/66.4 | 68.6/54.6 |
| RefSpatialBench | 45.3 | 28.9 | 32.9/30.0 | 23.5/21.7 |
| Hypersim | 11.9 | 11.2 | 12.4/12.4 | 11.9/11.0 |
| SUNRGBD | 28.0 | 28.6 | 28.7/25.6 | 26.1/23.3 |
| Nuscene | 4.9 | 4.0 | 6.9/8.5 | 5.7/7.0 |
| 视频理解 | ||||
| VideoMME(带字幕) | 76.0 | 67.9 | 75.6/-- | 63.8/-- |
| VideoMME(无字幕) | 68.9 | 62.1 | 69.0/-- | 57.7/-- |
| VideoMMMU | 69.4 | 54.1 | 62.1/-- | 44.3/-- |
| MLVU | 75.7 | 69.2 | 76.2/-- | 65.6/-- |
| MVBench | 69.3 | 64.5 | 64.9/-- | 55.8/-- |
| LVBench | 53.5 | 47.6 | 57.1/-- | 45.1/-- |
| MMVU | 58.6 | 48.9 | 48.6/-- | 34.3/-- |
| 视觉智能体 | ||||
| ScreenSpot Pro | 59.5 | 48.5 | --/54.5 | --/46.5 |
| 医疗视觉问答 | ||||
| SLAKE | 65.9 | 61.1 | 74.4/67.5 | 62.6/59.5 |
| PMC-VQA | 48.4 | 42.4 | 48.8/54.0 | 40.4/45.5 |
| MedXpertQA-MM | 26.3 | 13.0 | 26.9/19.1 | 17.1/25.3 |
* Qwen3.5模型的分数以思考模式/非思考模式呈现。
* MathVision:我们的模型分数使用固定提示词评估,例如“请逐步推理,并将最终答案放在\boxed{}内。”对于其他模型,我们报告使用和不使用\boxed{}格式运行时的较高分数。
* 实验设置:视频基准测试使用top_p=0.95、top_k=20、presence_penalty=1.5和temperature=1.0。所有其他基准测试采用相同的采样配置,但在思考模式下temperature=0.6。在非思考模式下,采样参数设置为top_p=0.8、top_k=20、presence_penalty=1.5和temperature=0.7。
* 空白单元格(--)表示分数尚未获得或不适用。
[!Important] Qwen3.5 模型支持无思考模式和思考模式。Qwen3.5-0.8B 默认运行于无思考模式。 如需启用思考模式,请参考此处的示例。
为简化集成流程,我们建议通过 API 使用 Qwen3.5。以下是通过兼容 OpenAI 的 API 使用 Qwen3.5 的指南。
Qwen3.5 可通过主流推理框架以 API 形式部署。 下文将展示启动 Qwen3.5 模型兼容 OpenAI API 服务的示例命令。
[!Important] 不同框架的推理效率和吞吐量差异显著。 建议使用最新版本的框架,以确保最佳性能和兼容性。 对于生产工作负载或高吞吐量场景,强烈推荐使用 SGLang、KTransformers 或 vLLM 等专用部署引擎。
[!Important] 该模型的默认上下文长度为 262,144 个 token。 若遇到内存不足(OOM)错误,请考虑减小上下文窗口。
SGLang 是一个用于大型语言模型和视觉语言模型的快速部署框架。 Qwen3.5 需要使用该开源仓库主分支的 SGLang,可在全新环境中通过以下命令安装:
uv pip install 'git+https://github.com/sgl-project/sglang.git#subdirectory=python&egg=sglang[all]'有关更多详细信息,请参见其文档。
以下操作将在 http://localhost:8000/v1 创建 API 端点:
标准版:可使用以下命令创建最大上下文长度为 262,144 tokens 的 API 端点,该端点在 8 个 GPU 上使用张量并行。
python -m sglang.launch_server --model-path Qwen/Qwen3.5-0.8B --port 8000 --tp-size 1 --mem-fraction-static 0.8 --context-length 262144工具调用:要支持工具调用,可使用以下命令。
python -m sglang.launch_server --model-path Qwen/Qwen3.5-0.8B --port 8000 --tp-size 1 --mem-fraction-static 0.8 --context-length 262144 --tool-call-parser qwen3_coder多 token 预测(MTP):建议使用以下命令进行 MTP:
python -m sglang.launch_server --model-path Qwen/Qwen3.5-0.8B --port 8000 --tp-size 1 --mem-fraction-static 0.8 --context-length 262144 --speculative-algo NEXTN --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4vLLM 是一个用于大型语言模型(LLMs)的高吞吐量且内存高效的推理和服务引擎。 Qwen3.5 需要使用开源仓库主分支的 vLLM,可在全新环境中通过以下命令安装:
uv pip install vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly有关更多详情,请参见其文档。
如需详细的Qwen3.5使用指南,请参阅vLLM Qwen3.5使用说明。
以下操作将在http://localhost:8000/v1创建API端点:
标准版:以下命令可用于创建一个最大上下文长度为262,144 tokens的API端点,并在8个GPU上使用张量并行。
vllm serve Qwen/Qwen3.5-0.8B --port 8000 --tensor-parallel-size 1 --max-model-len 262144 工具调用:要支持工具使用,可使用以下命令。
vllm serve Qwen/Qwen3.5-0.8B --port 8000 --tensor-parallel-size 1 --max-model-len 262144 --enable-auto-tool-choice --tool-call-parser qwen3_coder 多 token 预测(MTP):推荐使用以下命令进行MTP:
vllm serve Qwen/Qwen3.5-0.8B --port 8000 --tensor-parallel-size 1 --max-model-len 262144 --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'纯文本模式:以下命令会跳过视觉编码器和多模态分析,以释放内存用于额外的KV缓存:
vllm serve Qwen/Qwen3.5-0.8B --port 8000 --tensor-parallel-size 1 --max-model-len 262144 --language-model-onlyKTransformers是一个灵活的框架,可通过CPU-GPU异构计算体验前沿的LLM推理优化。 要使用KTransformers运行Qwen3.5,请参见KTransformers部署指南。
Hugging Face Transformers包含一个轻量级服务器,可用于快速测试和中等负载部署。
运行Qwen3.5需要最新版本的transformers:
pip install "transformers[serving] @ git+https://github.com/huggingface/transformers.git@main"有关更多详情,请参见其文档。同时,请确保已安装torchvision和pillow。
然后,运行transformers serve以启动服务器,其API端点位于http://localhost:8000/v1;如果有可用的加速器,服务器会将模型部署到加速器上:
transformers serve --force-model Qwen/Qwen3.5-0.8B --port 8000 --continuous-batching对话补全 API 可通过标准 HTTP 请求或 OpenAI SDK 访问。 这里,我们展示使用 OpenAI Python SDK 的示例。
开始之前,请确保已安装该 SDK,并配置好 API 密钥和 API 基础 URL,例如:
pip install -U openai
# Set the following accordingly
export OPENAI_BASE_URL="http://localhost:8000/v1"
export OPENAI_API_KEY="EMPTY"[!Tip] 我们建议使用以下一组采样参数进行生成
- 文本任务非思考模式:
temperature=1.0, top_p=1.00, top_k=20, min_p=0.0, presence_penalty=2.0, repetition_penalty=1.0- 多模态(VL)任务非思考模式:
temperature=0.7, top_p=0.80, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0- 文本任务思考模式:
temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0- 多模态(VL)或精确编码(如 Web 开发)任务思考模式:
temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0请注意,不同推理框架对采样参数的支持情况有所不同。
from openai import OpenAI
# Configured by environment variables
client = OpenAI()
messages = [
{"role": "user", "content": "Give me a short introduction to large language models."},
]
chat_response = client.chat.completions.create(
model="Qwen/Qwen3.5-0.8B",
messages=messages,
max_tokens=32768,
temperature=1.0,
top_p=1.0,
presence_penalty=2.0,
extra_body={
"top_k": 20,
},
)
print("Chat response:", chat_response)from openai import OpenAI
# Configured by environment variables
client = OpenAI()
messages = [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": "https://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3.5/demo/RealWorld/RealWorld-04.png"
}
},
{
"type": "text",
"text": "Where is this?"
}
]
}
]
chat_response = client.chat.completions.create(
model="Qwen/Qwen3.5-0.8B",
messages=messages,
max_tokens=32768,
temperature=0.7,
top_p=0.8,
presence_penalty=1.5,
extra_body={
"top_k": 20,
},
)
print("Chat response:", chat_response)from openai import OpenAI
# Configured by environment variables
client = OpenAI()
messages = [
{
"role": "user",
"content": [
{
"type": "video_url",
"video_url": {
"url": "https://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3.5/demo/video/N1cdUjctpG8.mp4"
}
},
{
"type": "text",
"text": "Summarize the video content."
}
]
}
]
# When vLLM is launched with `--media-io-kwargs '{"video": {"num_frames": -1}}'`,
# video frame sampling can be configured via `extra_body` (e.g., by setting `fps`).
# This feature is currently supported only in vLLM.
#
# By default, `fps=2` and `do_sample_frames=True`.
# With `do_sample_frames=True`, you can customize the `fps` value to set your desired video sampling rate.
chat_response = client.chat.completions.create(
model="Qwen/Qwen3.5-0.8B",
messages=messages,
max_tokens=32768,
temperature=0.7,
top_p=0.8,
presence_penalty=1.5,
extra_body={
"top_k": 20,
"mm_processor_kwargs": {"fps": 2, "do_sample_frames": True},
},
)
print("Chat response:", chat_response)[!Important] Qwen3.5 不正式支持 Qwen3 的软切换,即
/think和/nothink。
您可以通过配置 API 参数让模型在响应前进行思考。 例如,
from openai import OpenAI
# Configured by environment variables
client = OpenAI()
messages = [
{"role": "user", "content": "Type \"I love Qwen3.5\" backwards"},
]
chat_response = client.chat.completions.create(
model="Qwen/Qwen3.5-0.8B",
messages=messages,
max_tokens=81920,
temperature=1.0,
top_p=0.95,
presence_penalty=1.5,
extra_body={
"top_k": 20,
"enable_thinking": True,
},
)
print("Chat response:", chat_response)[!Important] 在思考模式下,我们观察到当使用推荐的采样参数时,Qwen3.5-0.8B 相较于其他 Qwen3.5 模型更容易陷入思考循环,这可能导致其无法正常终止生成。 我们建议针对具体使用场景进一步调整采样参数,并利用 API 的流式生成模式(如支持)以便及时检测和中断此类异常生成行为。
Qwen3.5 具备出色的工具调用能力。
我们推荐使用 Qwen-Agent 快速构建基于 Qwen3.5 的智能体应用。
您可以通过 MCP 配置文件定义可用工具,使用 Qwen-Agent 的集成工具,或自行集成其他工具。
import os
from qwen_agent.agents import Assistant
# Define LLM
# Using OpenAI-compatible API endpoint. The API backend should disable response parsers.
llm_cfg = {
# Use your own model service compatible with OpenAI API by vLLM/SGLang:
'model': 'Qwen/Qwen3.5-0.8B',
'model_type': 'qwenvl_oai',
'model_server': 'http://localhost:8000/v1', # api_base
'api_key': 'EMPTY',
'generate_cfg': {
'use_raw_api': True,
# Pass the parameter of whether to enable thinking mode in this way
# 'extra_body': {
# 'chat_template_kwargs': {'enable_thinking': True}
# },
},
}
# Define Tools
tools = [
{'mcpServers': { # You can specify the MCP configuration file
"filesystem": {
"command": "npx",
"args": ["-y", "@modelcontextprotocol/server-filesystem", "/Users/xxxx/Desktop"]
}
}
}
]
# Define Agent
bot = Assistant(llm=llm_cfg, function_list=tools)
# Streaming generation
messages = [{'role': 'user', 'content': 'Help me organize my desktop.'}]
for responses in bot.run(messages=messages):
pass
print(responses)
# Streaming generation
messages = [{'role': 'user', 'content': 'Develop a dog website and save it on the desktop'}]
for responses in bot.run(messages=messages):
pass
print(responses)Qwen Code 是一款面向终端的开源 AI 智能体,针对 Qwen 模型进行了优化。它能帮助您理解大型代码库、自动化繁琐工作,从而加快开发交付速度。
更多信息,请参阅 Qwen Code。
为实现最佳性能,我们建议采用以下设置:
采样参数:
建议根据模式和任务类型使用以下采样参数组合:
temperature=1.0,top_p=1.00,top_k=20,min_p=0.0,presence_penalty=2.0,repetition_penalty=1.0temperature=0.7,top_p=0.80,top_k=20,min_p=0.0,presence_penalty=1.5,repetition_penalty=1.0temperature=1.0,top_p=0.95,top_k=20,min_p=0.0,presence_penalty=1.5,repetition_penalty=1.0temperature=0.6,top_p=0.95,top_k=20,min_p=0.0,presence_penalty=0.0,repetition_penalty=1.0对于支持的框架,您可以将 presence_penalty 参数在 0 到 2 之间进行调整,以减少无意义的重复。但请注意,使用较高的值偶尔可能导致语言混用,并使模型性能略有下降。
充足的输出长度:对于大多数查询,建议使用 32,768 个 token 的输出长度。在对高度复杂问题(如数学和编程竞赛中的题目)进行基准测试时,建议将最大输出长度设置为 81,920 个 token。这能为模型提供足够的空间来生成详细且全面的响应,从而提升其整体性能。
标准化输出格式:进行基准测试时,建议通过提示词来标准化模型输出。
answer 字段中仅用选项字母展示您的选择,例如:"answer": "C"。”历史记录中不含思考内容:在多轮对话中,历史模型输出应仅包含最终输出部分,无需包含思考内容。这一点在提供的 Jinja2 聊天模板中已实现。但对于未直接使用 Jinja2 聊天模板的框架,需由开发者确保遵循此最佳实践。
长视频理解:为优化纯文本和图像的推理效率,发布的 video_preprocessor_config.json 中的 size 参数采用了保守配置。建议将 video_preprocessor_config 文件中的 longest_edge 参数设置为 469,762,048(对应 224k 视频 token),以实现对小时级视频的更高帧率采样,从而获得更优性能。例如:
{"longest_edge": 469762048, "shortest_edge": 4096}如果您觉得我们的工作有帮助,欢迎引用我们的成果。
@misc{qwen3.5,
title = {{Qwen3.5}: Towards Native Multimodal Agents},
author = {{Qwen Team}},
month = {February},
year = {2026},
url = {https://qwen.ai/blog?id=qwen3.5}
}