Qwen3-Next-80B-A3B-Instruct
阿里云通义团队2025年9月发布的Qwen3-Next架构首款指令微调模型。
| 核心规格 | 数值 |
|---|---|
| 总参数量 | 80 B |
| 推理激活量 | 3 B(故称A3B) |
| 稀疏度 | 1:50 |
| 网络深度 | 48层 |
| MoE专家数 | 512 |
| 每Token调用 | 10路由专家+1共享专家 |
| 注意力机制 | 混合注意力: 75%层Gated DeltaNet线性注意力(降开销) 25%层标准注意力(保精度)交替放置 |
| 原生上下文 | 256 K tokens |
| YaRN扩展 | 平滑支持1 M tokens |
功能定位