Qwen3-30B-A3B-Base

Qwen3 核心亮点

Qwen3 是通义千问系列最新一代大语言模型，提供完整的稠密模型与混合专家（MoE）模型组合。
基于训练数据、模型架构与优化技术的全面升级，Qwen3 相较于此前发布的 Qwen2.5 实现了以下关键提升：

更高质量的大规模预训练语料：Qwen3 的预训练覆盖 119 种语言、36 万亿 token，语言覆盖量达 Qwen2.5 的三倍，并显著提升了编程、STEM、推理、书籍、多语言及合成数据等高价值数据的占比。
训练技术与架构优化：引入全局批负载均衡损失（MoE 模型专用）与 qk 层归一化（全模型适用）等创新技术，显著提升训练稳定性与整体性能。
三阶段预训练范式：第一阶段专注通用语言建模与常识积累；第二阶段强化 STEM、编程与逻辑推理等专项能力；第三阶段通过 32k 长序列训练增强上下文理解能力。
缩放定律驱动的超参调优：基于三阶段预训练流程的缩放定律研究，针对稠密模型与 MoE 模型分别系统优化学习率调度器、批大小等关键超参，实现不同规模模型的最佳训练动态与最终性能。

模型概览

Qwen3-30B-A3B-Base 核心特性如下：

模型类型：因果语言模型
训练阶段：预训练
参数量：总参数量 30.5B，激活参数量 3.3B
非嵌入参数量：29.9B
层数：48
注意力头数（GQA）：查询头 32，键值头 4
专家总数：128
激活专家数：8
上下文长度：32,768

更多基准测试、硬件需求与推理性能详情，请参阅我们的博客、GitHub 及技术文档。

环境要求

Qwen3-MoE 的代码已集成至最新版 Hugging Face transformers，建议使用 transformers 最新版本。

若使用 transformers<4.51.0，将触发以下报错：

KeyError: 'qwen3_moe'

评估与性能

详细评估结果请参阅这篇📑 博客。

引用

如果您认为我们的工作对您有所帮助，欢迎引用。

@misc{qwen3technicalreport,
      title={Qwen3 Technical Report}, 
      author={Qwen Team},
      year={2025},
      eprint={2505.09388},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.09388}, 
}

Qwen3 核心亮点

更高质量的大规模预训练语料：Qwen3 的预训练覆盖 119 种语言、36 万亿 token，语言覆盖量达 Qwen2.5 的三倍，并显著提升了编程、STEM、推理、书籍、多语言及合成数据等高价值数据的占比。

训练技术与架构优化：引入全局批负载均衡损失（MoE 模型专用）与 qk 层归一化（全模型适用）等创新技术，显著提升训练稳定性与整体性能。

三阶段预训练范式：第一阶段专注通用语言建模与常识积累；第二阶段强化 STEM、编程与逻辑推理等专项能力；第三阶段通过 32k 长序列训练增强上下文理解能力。

缩放定律驱动的超参调优：基于三阶段预训练流程的缩放定律研究，针对稠密模型与 MoE 模型分别系统优化学习率调度器、批大小等关键超参，实现不同规模模型的最佳训练动态与最终性能。

模型概览

Qwen3-30B-A3B-Base 核心特性如下：

模型类型：因果语言模型

训练阶段：预训练

参数量：总参数量 30.5B，激活参数量 3.3B

非嵌入参数量：29.9B

层数：48

注意力头数（GQA）：查询头 32，键值头 4

专家总数：128

激活专家数：8

上下文长度：32,768

更多基准测试、硬件需求与推理性能详情，请参阅我们的博客、GitHub 及技术文档。

评估与性能

详细评估结果请参阅这篇📑 博客。

引用

如果您认为我们的工作对您有所帮助，欢迎引用。

@misc{qwen3technicalreport,
      title={Qwen3 Technical Report}, 
      author={Qwen Team},
      year={2025},
      eprint={2505.09388},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.09388}, 
}