openPangu-R-72B-2512

1. 简介

openPangu-R-72B-2512 是基于昇腾集群训练的MoE模型。模型总参数量74B，激活参数量15B，采用80选8的专家选择机制，支持128k长序列处理。训练数据总量约24T tokens。同一个模型支持快慢思考两种模式切换，慢思考模式下，支持思维链分档（“低”和“高”两种推理深度）。

2. 模型架构

openPangu-R-72B-2512 在模型稳定收敛和效果提升方向进行了以下优化：

在注意力机制中引入参数式Sink Token技术：有效缓解极大激活值问题，训练中最大激活值从 $10^3$ 降至 $10^2$ 量级，提升训练稳定性并对后量化亲和。
K-Norm与Depth-Scaled Sandwich-Norm：为保证attention logits的稳定性，我们采用了K-Norm结构。K-Norm与QK-Norm类似，但只对attention的key施加RMS Norm。K-Norm可起到与QK-Norm类似的稳定性效果，但引入的计算开销更小，同时K-Norm不影响Query的scale，带来更灵活的表达能力。为了保证残差连接的稳定性，我们采用了Depth-Scaled Sandwich-Norm方法。
注意力架构优化：增加Query头数和注意力头维度，使模型能够从更多角度捕获细粒度语义关系。引入Partial RoPE机制，仅对Query和Key中1/3维度应用位置编码。尽管Key头维度有所增加，但通过将KV组数量减半，KV cache仍可减少37.5%，在保持推理阶段显存和速度优化的同时，实现了更低的训练损失和更优的推理性能。
Adaptive Aux Free负载优化技术：能够自适应调整专家bias更新幅度，减少均衡震荡现象，优化专家负载分布均衡性。

详细架构参数如下：


Architecture	Mixture-of-Experts (MoE)
Total Parameters	74B
Activated Parameters	15B
Number of Layers (Dense layer included)	50
Number of Dense Layers	4
Number of MTP Modules	1
Hidden Dimension	4608
MoE Hidden Dimension (per Expert)	1280
Attention Mechanism	GQA
Number of Attention Heads	64
Number of Query Groups	4
Number of Experts	80
Selected Experts per Token	8
Number of Shared Experts	2
Vocabulary Size	153K
Context Length	128K

3. 测评结果

测评集	测评指标	openPangu-R-72B-2512 快思考	openPangu-R-72B-2512 慢思考
通用能力
LiveBench	Acc (2024-11-25)	67.3	75.2
MMLU-Pro	Exact Match	84.2	84.8
MMLU-ProX	Acc	76.9	80.6
RULER	Acc	95.6	94.7
LongBench V2	Acc	45.3	55.3
IF-Eval	Prompt Strict	86.3	79.1
Hallucination-LeaderBoard	1-HHEM	96.5	97.1
GPQA-Dimaond	Avg@4	76.8	83.2
SuperGPQA	Acc	58.9	64.2
数学能力
AIME24	Avg@16	75.6	89.0
AIME25	Avg@16	60.6	81.3
CNMO 2024	Avg@32	77.8	82.8
HMMT 2025	Avg@16 (February)	45.4	74.8
代码能力
LiveCodeBench V6	Avg@3 (01/25~05/25)	41.9	69.5
Codeforces	Elo Avg@3 (02/25~09/25)	1044.5	1701.4
Agent工具调用
BFCL-V3	Acc (Prompt)	74.6	76.5
Tau-Bench (airline)	Avg@3 (FC)	45.3	56.0
Tau-Bench (retail)	Avg@3 (FC)	70.1	73.0
Tau2-Bench (airline)	Avg@3 (FC)	58.0	65.3
Tau2-Bench (retail)	Avg@3 (FC)	71.4	78.7
Tau2-Bench (telecom)	Avg@3 (FC)	48.8	49.4
AceBench	Acc (Prompt)	74.3	79.6

4. 部署和使用

使用omni-infer推理框架，参考[omniinfer_for_openpangu_r_72b_2512]

5. 模型许可证

除文件中对开源许可证另有约定外，openPangu-R-72B-2512 模型根据 OPENPANGU MODEL LICENSE AGREEMENT VERSION 1.0 授权，旨在允许使用并促进人工智能技术的进一步发展。有关详细信息，请参阅模型存储库根目录中的 LICENSE 文件。

6. 免责声明

由于 openPangu-R-72B-2512 （“模型”）所依赖的技术固有的限制，以及人工智能生成的内容是由盘古自动生成的，华为无法对以下事项做出任何保证：

该模型的输出通过AI算法自动生成，不能排除某些信息可能存在缺陷、不合理或引起不适的可能性，生成的内容不代表华为的态度或立场；
无法保证该模型100%准确、可靠、功能齐全、及时、安全、无错误、不间断、持续稳定或无任何故障；
该模型的输出内容不构成任何建议或决策，也不保证生成的内容的真实性、完整性、准确性、及时性、合法性、功能性或实用性。生成的内容不能替代医疗、法律等领域的专业人士回答您的问题。生成的内容仅供参考，不代表华为的任何态度、立场或观点。您需要根据实际情况做出独立判断，华为不承担任何责任。

7. 反馈

如果有任何意见和建议，请提交issue或联系openPangu@huawei.com。

1. 简介

2. 模型架构

openPangu-R-72B-2512 在模型稳定收敛和效果提升方向进行了以下优化：

在注意力机制中引入参数式Sink Token技术：有效缓解极大激活值问题，训练中最大激活值从 $10^3$ 降至 $10^2$ 量级，提升训练稳定性并对后量化亲和。

K-Norm与Depth-Scaled Sandwich-Norm：为保证attention logits的稳定性，我们采用了K-Norm结构。K-Norm与QK-Norm类似，但只对attention的key施加RMS Norm。K-Norm可起到与QK-Norm类似的稳定性效果，但引入的计算开销更小，同时K-Norm不影响Query的scale，带来更灵活的表达能力。为了保证残差连接的稳定性，我们采用了Depth-Scaled Sandwich-Norm方法。

注意力架构优化：增加Query头数和注意力头维度，使模型能够从更多角度捕获细粒度语义关系。引入Partial RoPE机制，仅对Query和Key中1/3维度应用位置编码。尽管Key头维度有所增加，但通过将KV组数量减半，KV cache仍可减少37.5%，在保持推理阶段显存和速度优化的同时，实现了更低的训练损失和更优的推理性能。

Adaptive Aux Free负载优化技术：能够自适应调整专家bias更新幅度，减少均衡震荡现象，优化专家负载分布均衡性。

详细架构参数如下：


Architecture	Mixture-of-Experts (MoE)
Total Parameters	74B
Activated Parameters	15B
Number of Layers (Dense layer included)	50
Number of Dense Layers	4
Number of MTP Modules	1
Hidden Dimension	4608
MoE Hidden Dimension (per Expert)	1280
Attention Mechanism	GQA
Number of Attention Heads	64
Number of Query Groups	4
Number of Experts	80
Selected Experts per Token	8
Number of Shared Experts	2
Vocabulary Size	153K
Context Length	128K

3. 测评结果

测评集	测评指标	openPangu-R-72B-2512 快思考	openPangu-R-72B-2512 慢思考
通用能力
LiveBench	Acc (2024-11-25)	67.3	75.2
MMLU-Pro	Exact Match	84.2	84.8
MMLU-ProX	Acc	76.9	80.6
RULER	Acc	95.6	94.7
LongBench V2	Acc	45.3	55.3
IF-Eval	Prompt Strict	86.3	79.1
Hallucination-LeaderBoard	1-HHEM	96.5	97.1
GPQA-Dimaond	Avg@4	76.8	83.2
SuperGPQA	Acc	58.9	64.2
数学能力
AIME24	Avg@16	75.6	89.0
AIME25	Avg@16	60.6	81.3
CNMO 2024	Avg@32	77.8	82.8
HMMT 2025	Avg@16 (February)	45.4	74.8
代码能力
LiveCodeBench V6	Avg@3 (01/25~05/25)	41.9	69.5
Codeforces	Elo Avg@3 (02/25~09/25)	1044.5	1701.4
Agent工具调用
BFCL-V3	Acc (Prompt)	74.6	76.5
Tau-Bench (airline)	Avg@3 (FC)	45.3	56.0
Tau-Bench (retail)	Avg@3 (FC)	70.1	73.0
Tau2-Bench (airline)	Avg@3 (FC)	58.0	65.3
Tau2-Bench (retail)	Avg@3 (FC)	71.4	78.7
Tau2-Bench (telecom)	Avg@3 (FC)	48.8	49.4
AceBench	Acc (Prompt)	74.3	79.6

6. 免责声明

由于 openPangu-R-72B-2512 （“模型”）所依赖的技术固有的限制，以及人工智能生成的内容是由盘古自动生成的，华为无法对以下事项做出任何保证：

该模型的输出通过AI算法自动生成，不能排除某些信息可能存在缺陷、不合理或引起不适的可能性，生成的内容不代表华为的态度或立场；

无法保证该模型100%准确、可靠、功能齐全、及时、安全、无错误、不间断、持续稳定或无任何故障；

该模型的输出内容不构成任何建议或决策，也不保证生成的内容的真实性、完整性、准确性、及时性、合法性、功能性或实用性。生成的内容不能替代医疗、法律等领域的专业人士回答您的问题。生成的内容仅供参考，不代表华为的任何态度、立场或观点。您需要根据实际情况做出独立判断，华为不承担任何责任。