Qwen3 是通义千问系列最新一代大语言模型,提供完整的稠密模型与混合专家(MoE)模型组合。
基于训练数据、模型架构与优化技术的全面升级,Qwen3 相较于此前发布的 Qwen2.5 实现了以下关键提升:
Qwen3-30B-A3B-Base 核心特性如下:
更多基准测试、硬件需求与推理性能详情,请参阅我们的博客、GitHub 及技术文档。
Qwen3-MoE 的代码已集成至最新版 Hugging Face transformers,建议使用 transformers 最新版本。
若使用 transformers<4.51.0,将触发以下报错:
KeyError: 'qwen3_moe'详细评估结果请参阅这篇📑 博客。
如果您认为我们的工作对您有所帮助,欢迎引用。
@misc{qwen3technicalreport,
title={Qwen3 Technical Report},
author={Qwen Team},
year={2025},
eprint={2505.09388},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.09388},
}