openPangu-2.0-Flash

1. 简介

openPangu-2.0-Flash 是基于昇腾 NPU 训练的大规模混合专家（MoE）语言模型，参数规模约 92B，每 token 激活参数规模约 6B，模型支持 512k 上下文长度，训练数据总量约34T tokens。后训练阶段完成快慢合一微调（SFT）、多专项强化学习（RL），并通过在线蒸馏（OPD）完成能力合一。

2. 模型架构

openPangu-2.0-Flash 在模型架构上实现了全面的升级：

Attention架构：沿用高效 MLA，并采用 DSA+SWA 独立分层混合架构，层配比为 1:2；SWA 层负责局部窗口建模，DSA 层负责稀疏全局聚合，在保持精度的同时显著降低长序列推理的计算、显存与访存开销。
拓扑架构：将传统残差连接升级为 4 支流 mHC 架构，提升表征多样性与泛化能力。
自投机模块：采用 3 头 MTP 架构，一次额外预测 3 个 token，显著提升模型的推理速度。
Muon优化器：训练中采用Muon优化器，获得更快的收敛速度。

3. 测评结果

测评集	测评指标	openPangu-2.0-Flash-Thinking	openPangu-2.0-Flash-Non-Thinking
通用能力
CL-Bench	Acc	20.4	15.5
IFEval	Prompt Strict	95.9	89.3
IFBench	Prompt Strict	79.6	54.4
AgentIF	(CSR+ISR)/2	44.9	43.9
SysBench	ISR	91.1	87.9
Multichallenge	Acc	68.4	51.9
推理能力
AIME 2026	Avg@16	93.3	86.5
- w/ Python	Avg@16	98.1	-
HMMT Feb 2025	Avg@16	91.5	67.1
- w/ Python	Avg@16	96.9	-
IMO-AnswerBench	Acc	76.5	62.3
- w/ Python	Acc	80.8	-
BBEH	Harmonic Mean	62.5	51.5
GPQA-Diamond	Avg@4	83.7	79.8
Agent能力
BrowseComp	Acc	57.0	-
SkillsBench	Avg@5	42.6	40.0
PinchBench	Avg@3	85.6	82.5
Claw-Eval	Pass^3	57.7	58.2
WildClawBench	Avg@3	41.5	35.0
MCP-Atlas	Acc	58.9	47.9
TAU2-Bench	Avg@3	88.0	74.0
代码能力
LiveCodeBench V6	Avg@3	85.1	50.9
DeepCodeBench	Avg@3	76.5	70.9
SWE-bench Verified	Avg@3	63.1	57.6
FeatBench	Avg@3	45.9	45.8

4. 部署和使用

使用omni-infer推理框架，部署方式参考[openPangu-2.0-Flash部署说明]
源码仓:[openPangu-2.0-Infer]

5. 模型许可证

除文件中对开源许可证另有约定外，openPangu-2.0-Flash 模型根据 OPENPANGU MODEL LICENSE AGREEMENT VERSION 2.0 授权，旨在允许使用并促进人工智能技术的进一步发展。有关详细信息，请参阅模型存储库根目录中的 LICENSE 文件。

6. 免责声明

由于 openPangu-2.0-Flash （“模型”）所依赖的技术固有的限制，以及人工智能生成的内容是由模型自动生成的，华为无法对以下事项做出任何保证：

该模型的输出通过AI算法自动生成，不能排除某些信息可能存在缺陷、不合理或引起不适的可能性，生成的内容不代表华为的态度或立场；
无法保证该模型100%准确、可靠、功能齐全、及时、安全、无错误、不间断、持续稳定或无任何故障；
该模型的输出内容不构成任何建议或决策，也不保证生成的内容的真实性、完整性、准确性、及时性、合法性、功能性或实用性。生成的内容不能替代医疗、法律等领域的专业人士回答您的问题。生成的内容仅供参考，不代表华为的任何态度、立场或观点。您需要根据实际情况做出独立判断，华为不承担任何责任。

7. 反馈

如果有任何意见和建议，请提交issue或联系openPangu@huawei.com。

1. 简介

2. 模型架构

openPangu-2.0-Flash 在模型架构上实现了全面的升级：

Attention架构：沿用高效 MLA，并采用 DSA+SWA 独立分层混合架构，层配比为 1:2；SWA 层负责局部窗口建模，DSA 层负责稀疏全局聚合，在保持精度的同时显著降低长序列推理的计算、显存与访存开销。

拓扑架构：将传统残差连接升级为 4 支流 mHC 架构，提升表征多样性与泛化能力。

自投机模块：采用 3 头 MTP 架构，一次额外预测 3 个 token，显著提升模型的推理速度。

Muon优化器：训练中采用Muon优化器，获得更快的收敛速度。

3. 测评结果

测评集	测评指标	openPangu-2.0-Flash-Thinking	openPangu-2.0-Flash-Non-Thinking
通用能力
CL-Bench	Acc	20.4	15.5
IFEval	Prompt Strict	95.9	89.3
IFBench	Prompt Strict	79.6	54.4
AgentIF	(CSR+ISR)/2	44.9	43.9
SysBench	ISR	91.1	87.9
Multichallenge	Acc	68.4	51.9
推理能力
AIME 2026	Avg@16	93.3	86.5
- w/ Python	Avg@16	98.1	-
HMMT Feb 2025	Avg@16	91.5	67.1
- w/ Python	Avg@16	96.9	-
IMO-AnswerBench	Acc	76.5	62.3
- w/ Python	Acc	80.8	-
BBEH	Harmonic Mean	62.5	51.5
GPQA-Diamond	Avg@4	83.7	79.8
Agent能力
BrowseComp	Acc	57.0	-
SkillsBench	Avg@5	42.6	40.0
PinchBench	Avg@3	85.6	82.5
Claw-Eval	Pass^3	57.7	58.2
WildClawBench	Avg@3	41.5	35.0
MCP-Atlas	Acc	58.9	47.9
TAU2-Bench	Avg@3	88.0	74.0
代码能力
LiveCodeBench V6	Avg@3	85.1	50.9
DeepCodeBench	Avg@3	76.5	70.9
SWE-bench Verified	Avg@3	63.1	57.6
FeatBench	Avg@3	45.9	45.8

6. 免责声明

由于 openPangu-2.0-Flash （“模型”）所依赖的技术固有的限制，以及人工智能生成的内容是由模型自动生成的，华为无法对以下事项做出任何保证：

该模型的输出通过AI算法自动生成，不能排除某些信息可能存在缺陷、不合理或引起不适的可能性，生成的内容不代表华为的态度或立场；

无法保证该模型100%准确、可靠、功能齐全、及时、安全、无错误、不间断、持续稳定或无任何故障；

该模型的输出内容不构成任何建议或决策，也不保证生成的内容的真实性、完整性、准确性、及时性、合法性、功能性或实用性。生成的内容不能替代医疗、法律等领域的专业人士回答您的问题。生成的内容仅供参考，不代表华为的任何态度、立场或观点。您需要根据实际情况做出独立判断，华为不承担任何责任。