讨论列表 - Qwen3-Next-80B-A3B-Instruct:阿里云通义团队2025年9月发布的Qwen3-Next-80B-A3B-Instruct指令微调模型,总参数量80B,推理激活量仅3B,稀疏度1:50,网络深度48层,采用512专家MoE架构,每Token调用10路由专家+1共享专家。混合注意力机制平衡效率与精度,原生上下文256K tokens,YaRN扩展支持1M tokens。专为高吞吐、确定性输出的生产环境设计,适用于对话、RAG、工具调用等场景,具备函数调用、结构化输出、多轮对话、代码生成、多语言等通用能力。 - AtomGit AI社区