讨论列表 - Qwen3-Next-80B-A3B-Instruct:阿里云通义团队2025年9月发布的Qwen3-Next-80B-A3B-Instruct指令微调模型，总参数量80B，推理激活量仅3B，稀疏度1:50，网络深度48层，采用512专家MoE架构，每Token调用10路由专家+1共享专家。混合注意力机制平衡效率与精度，原生上下文256K tokens，YaRN扩展支持1M tokens。专为高吞吐、确定性输出的生产环境设计，适用于对话、RAG、工具调用等场景，具备函数调用、结构化输出、多轮对话、代码生成、多语言等通用能力。