Ascend-SACT/Qwen3-Next-80B-A3B-Instruct
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

1 模型概述及场景

1.1 模型概述

Qwen3-Next-80B-A3B-Instruct
阿里云通义团队2025年9月发布的Qwen3-Next架构首款指令微调模型。

核心规格数值
总参数量80 B
推理激活量3 B(故称A3B)
稀疏度1:50
网络深度48层
MoE专家数512
每Token调用10路由专家+1共享专家
注意力机制混合注意力:
75%层Gated DeltaNet线性注意力(降开销)
25%层标准注意力(保精度)交替放置
原生上下文256 K tokens
YaRN扩展平滑支持1 M tokens

功能定位

  • Instruct版:专为“非思考”式快速回答设计,不输出`