Qwen3.5-0.8B-Base

[!Note] 本仓库包含 Hugging Face Transformers 格式的仅预训练模型的权重和配置文件。

这些模型资源与 Hugging Face Transformers、vLLM、SGLang 等工具兼容。

其预期用途为微调、上下文学习实验以及其他研究或开发目的，而非直接交互。不过，已对控制令牌（例如 <|im_start|> 和 <|im_end|>）进行训练，以支持使用官方对话模板进行高效的 LoRA 风格 PEFT，从而减少微调嵌入的需求。考虑到 Qwen3.5 更大的词汇量，这是一项显著的优化。

近几个月来，我们加大了对开发具备卓越实用性和性能的基础模型的投入。Qwen3.5 代表了一大进步，它融合了多模态学习、架构效率、强化学习规模和全球可访问性方面的突破，旨在为开发者和企业提供前所未有的能力和效率。

Qwen3.5 亮点

Qwen3.5 具有以下增强特性：

统一视觉-语言基础：在多模态令牌上进行早期融合训练，实现了与 Qwen3 跨代际的性能相当，并在推理、编码、智能体和视觉理解基准测试中优于 Qwen3-VL 模型。
高效混合架构：门控 Delta 网络结合稀疏混合专家（Mixture-of-Experts），实现了高吞吐量推理，同时将延迟和成本开销降至最低。
可扩展的强化学习泛化：在包含数百万智能体的环境中扩展强化学习，并采用逐渐复杂的任务分布，以实现强大的现实世界适应性。
全球语言覆盖：扩展支持 201 种语言和方言，实现包容性的全球部署，并具备细致的文化和区域理解能力。
下一代训练基础设施：与纯文本训练相比，多模态训练效率接近 100%；异步强化学习框架支持大规模智能体架构和环境编排。

更多详情，请参阅我们的博客文章 Qwen3.5。

模型概述

类型：带视觉编码器的因果语言模型
训练阶段：预训练与后训练
语言模型
- 参数数量：0.8B
- 隐藏维度：1024
- 词元嵌入：248320（已填充）
- 层数：24
- 隐藏层结构：6 × (3 × (门控 DeltaNet → FFN) → 1 × (门控注意力 → FFN))
- 门控 DeltaNet：
  - 线性注意力头数量：V 为 16，QK 为 16
  - 头维度：128
- 门控注意力：
  - 注意力头数量：Q 为 8，KV 为 2
  - 头维度：256
  - 旋转位置嵌入维度：64
- 前馈网络：
  - 中间维度：3584
- 语言模型输出：248320（与词元嵌入绑定）
- MTP：采用多步训练
上下文长度：原生支持 262,144 个词元，可扩展至 1,010,000 个词元。

引用

如果您觉得我们的工作对您有帮助，欢迎引用。

@misc{qwen3.5,
    title  = {{Qwen3.5}: Towards Native Multimodal Agents},
    author = {{Qwen Team}},
    month  = {February},
    year   = {2026},
    url    = {https://qwen.ai/blog?id=qwen3.5}
}

Qwen3.5-0.8B-Base

[!Note] 本仓库包含 Hugging Face Transformers 格式的仅预训练模型的权重和配置文件。

这些模型资源与 Hugging Face Transformers、vLLM、SGLang 等工具兼容。

其预期用途为微调、上下文学习实验以及其他研究或开发目的，而非直接交互。不过，已对控制令牌（例如 <|im_start|> 和 <|im_end|>）进行训练，以支持使用官方对话模板进行高效的 LoRA 风格 PEFT，从而减少微调嵌入的需求。考虑到 Qwen3.5 更大的词汇量，这是一项显著的优化。

Qwen3.5 亮点

Qwen3.5 具有以下增强特性：

统一视觉-语言基础：在多模态令牌上进行早期融合训练，实现了与 Qwen3 跨代际的性能相当，并在推理、编码、智能体和视觉理解基准测试中优于 Qwen3-VL 模型。

高效混合架构：门控 Delta 网络结合稀疏混合专家（Mixture-of-Experts），实现了高吞吐量推理，同时将延迟和成本开销降至最低。

可扩展的强化学习泛化：在包含数百万智能体的环境中扩展强化学习，并采用逐渐复杂的任务分布，以实现强大的现实世界适应性。

全球语言覆盖：扩展支持 201 种语言和方言，实现包容性的全球部署，并具备细致的文化和区域理解能力。

下一代训练基础设施：与纯文本训练相比，多模态训练效率接近 100%；异步强化学习框架支持大规模智能体架构和环境编排。

更多详情，请参阅我们的博客文章 Qwen3.5。

模型概述

类型：带视觉编码器的因果语言模型

训练阶段：预训练与后训练

语言模型

参数数量：0.8B
隐藏维度：1024
词元嵌入：248320（已填充）
层数：24
隐藏层结构：6 × (3 × (门控 DeltaNet → FFN) → 1 × (门控注意力 → FFN))
门控 DeltaNet：
- 线性注意力头数量：V 为 16，QK 为 16
- 头维度：128
门控注意力：
- 注意力头数量：Q 为 8，KV 为 2
- 头维度：256
- 旋转位置嵌入维度：64
前馈网络：
- 中间维度：3584
语言模型输出：248320（与词元嵌入绑定）
MTP：采用多步训练

上下文长度：原生支持 262,144 个词元，可扩展至 1,010,000 个词元。

引用

如果您觉得我们的工作对您有帮助，欢迎引用。

@misc{qwen3.5,
    title  = {{Qwen3.5}: Towards Native Multimodal Agents},
    author = {{Qwen Team}},
    month  = {February},
    year   = {2026},
    url    = {https://qwen.ai/blog?id=qwen3.5}
}