[!Note] 本仓库包含 Hugging Face Transformers 格式的仅预训练模型的权重和配置文件。
这些模型资源与 Hugging Face Transformers、vLLM、SGLang 等工具兼容。
其预期用途为微调、上下文学习实验以及其他研究或开发目的,而非直接交互。 不过,已对控制令牌(例如
<|im_start|>和<|im_end|>)进行训练,以支持使用官方对话模板进行高效的 LoRA 风格 PEFT,从而减少微调嵌入的需求。考虑到 Qwen3.5 更大的词汇量,这是一项显著的优化。
近几个月来,我们加大了对开发具备卓越实用性和性能的基础模型的投入。Qwen3.5 代表了一大进步,它融合了多模态学习、架构效率、强化学习规模和全球可访问性方面的突破,旨在为开发者和企业提供前所未有的能力和效率。
Qwen3.5 具有以下增强特性:
统一视觉-语言基础:在多模态令牌上进行早期融合训练,实现了与 Qwen3 跨代际的性能相当,并在推理、编码、智能体和视觉理解基准测试中优于 Qwen3-VL 模型。
高效混合架构:门控 Delta 网络结合稀疏混合专家(Mixture-of-Experts),实现了高吞吐量推理,同时将延迟和成本开销降至最低。
可扩展的强化学习泛化:在包含数百万智能体的环境中扩展强化学习,并采用逐渐复杂的任务分布,以实现强大的现实世界适应性。
全球语言覆盖:扩展支持 201 种语言和方言,实现包容性的全球部署,并具备细致的文化和区域理解能力。
下一代训练基础设施:与纯文本训练相比,多模态训练效率接近 100%;异步强化学习框架支持大规模智能体架构和环境编排。
更多详情,请参阅我们的博客文章 Qwen3.5。
如果您觉得我们的工作对您有帮助,欢迎引用。
@misc{qwen3.5,
title = {{Qwen3.5}: Towards Native Multimodal Agents},
author = {{Qwen Team}},
month = {February},
year = {2026},
url = {https://qwen.ai/blog?id=qwen3.5}
}