Q
Qwen/Qwen3-30B-A3B-Base
模型介绍模型推理文件和版本分析
下载使用量0

Qwen3-30B-A3B-Base

Qwen3 核心亮点

Qwen3 是通义千问系列最新一代大语言模型,提供完整的稠密模型与混合专家(MoE)模型组合。
基于训练数据、模型架构与优化技术的全面升级,Qwen3 相较于此前发布的 Qwen2.5 实现了以下关键提升:

  • 更高质量的大规模预训练语料:Qwen3 的预训练覆盖 119 种语言、36 万亿 token,语言覆盖量达 Qwen2.5 的三倍,并显著提升了编程、STEM、推理、书籍、多语言及合成数据等高价值数据的占比。
  • 训练技术与架构优化:引入全局批负载均衡损失(MoE 模型专用)与 qk 层归一化(全模型适用)等创新技术,显著提升训练稳定性与整体性能。
  • 三阶段预训练范式:第一阶段专注通用语言建模与常识积累;第二阶段强化 STEM、编程与逻辑推理等专项能力;第三阶段通过 32k 长序列训练增强上下文理解能力。
  • 缩放定律驱动的超参调优:基于三阶段预训练流程的缩放定律研究,针对稠密模型与 MoE 模型分别系统优化学习率调度器、批大小等关键超参,实现不同规模模型的最佳训练动态与最终性能。

模型概览

Qwen3-30B-A3B-Base 核心特性如下:

  • 模型类型:因果语言模型
  • 训练阶段:预训练
  • 参数量:总参数量 30.5B,激活参数量 3.3B
  • 非嵌入参数量:29.9B
  • 层数:48
  • 注意力头数(GQA):查询头 32,键值头 4
  • 专家总数:128
  • 激活专家数:8
  • 上下文长度:32,768

更多基准测试、硬件需求与推理性能详情,请参阅我们的博客、GitHub 及技术文档。

环境要求

Qwen3-MoE 的代码已集成至最新版 Hugging Face transformers,建议使用 transformers 最新版本。

若使用 transformers<4.51.0,将触发以下报错:

KeyError: 'qwen3_moe'

评估与性能

详细评估结果请参阅这篇📑 博客。

引用

如果您认为我们的工作对您有所帮助,欢迎引用。

@misc{qwen3technicalreport,
      title={Qwen3 Technical Report}, 
      author={Qwen Team},
      year={2025},
      eprint={2505.09388},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.09388}, 
}