o
openharmony-models/openPangu-R-72B-2512
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

openPangu-R-72B-2512

中文 | English

1. 简介

openPangu-R-72B-2512 是基于昇腾集群训练的MoE模型。模型总参数量74B,激活参数量15B,采用80选8的专家选择机制,支持128k长序列处理。训练数据总量约24T tokens。同一个模型支持快慢思考两种模式切换,慢思考模式下,支持思维链分档(“低”和“高”两种推理深度)。

2. 模型架构

openPangu-R-72B-2512 在模型稳定收敛和效果提升方向进行了以下优化:

  • 在注意力机制中引入参数式Sink Token技术: 有效缓解极大激活值问题,训练中最大激活值从10310^3103降至10210^2102量级, 提升训练稳定性并对后量化亲和。

  • K-Norm与Depth-Scaled Sandwich-Norm:为保证attention logits的稳定性,我们采用了K-Norm结构。K-Norm与QK-Norm类似,但只对attention的key施加RMS Norm。K-Norm可起到与QK-Norm类似的稳定性效果,但引入的计算开销更小,同时K-Norm不影响Query的scale,带来更灵活的表达能力。为了保证残差连接的稳定性,我们采用了Depth-Scaled Sandwich-Norm方法。

  • 注意力架构优化:增加Query头数和注意力头维度,使模型能够从更多角度捕获细粒度语义关系。引入Partial RoPE机制,仅对Query和Key中1/3维度应用位置编码。尽管Key头维度有所增加,但通过将KV组数量减半,KV cache仍可减少37.5%,在保持推理阶段显存和速度优化的同时,实现了更低的训练损失和更优的推理性能。

  • Adaptive Aux Free负载优化技术:能够自适应调整专家bias更新幅度,减少均衡震荡现象,优化专家负载分布均衡性。

详细架构参数如下:

ArchitectureMixture-of-Experts (MoE)
Total Parameters74B
Activated Parameters15B
Number of Layers (Dense layer included)50
Number of Dense Layers4
Number of MTP Modules1
Hidden Dimension4608
MoE Hidden Dimension (per Expert)1280
Attention MechanismGQA
Number of Attention Heads64
Number of Query Groups4
Number of Experts80
Selected Experts per Token8
Number of Shared Experts2
Vocabulary Size153K
Context Length128K

3. 测评结果

测评集测评指标openPangu-R-72B-2512 快思考openPangu-R-72B-2512 慢思考
通用能力
LiveBenchAcc (2024-11-25)67.375.2
MMLU-ProExact Match84.284.8
MMLU-ProXAcc76.980.6
RULERAcc95.694.7
LongBench V2Acc45.355.3
IF-EvalPrompt Strict86.379.1
Hallucination-LeaderBoard1-HHEM96.597.1
GPQA-DimaondAvg@476.883.2
SuperGPQAAcc58.964.2
数学能力
AIME24Avg@1675.689.0
AIME25Avg@1660.681.3
CNMO 2024Avg@3277.882.8
HMMT 2025Avg@16 (February)45.474.8
代码能力
LiveCodeBench V6Avg@3 (01/25~05/25)41.969.5
CodeforcesElo Avg@3 (02/25~09/25)1044.51701.4
Agent工具调用
BFCL-V3Acc (Prompt)74.676.5
Tau-Bench (airline)Avg@3 (FC)45.356.0
Tau-Bench (retail)Avg@3 (FC)70.173.0
Tau2-Bench (airline)Avg@3 (FC)58.065.3
Tau2-Bench (retail)Avg@3 (FC)71.478.7
Tau2-Bench (telecom)Avg@3 (FC)48.849.4
AceBenchAcc (Prompt)74.379.6

4. 部署和使用

  • 使用omni-infer推理框架,参考[omniinfer_for_openpangu_r_72b_2512]

5. 模型许可证

除文件中对开源许可证另有约定外,openPangu-R-72B-2512 模型根据 OPENPANGU MODEL LICENSE AGREEMENT VERSION 1.0 授权,旨在允许使用并促进人工智能技术的进一步发展。有关详细信息,请参阅模型存储库根目录中的 LICENSE 文件。

6. 免责声明

由于 openPangu-R-72B-2512 (“模型”)所依赖的技术固有的限制,以及人工智能生成的内容是由盘古自动生成的,华为无法对以下事项做出任何保证:

  • 该模型的输出通过AI算法自动生成,不能排除某些信息可能存在缺陷、不合理或引起不适的可能性,生成的内容不代表华为的态度或立场;
  • 无法保证该模型100%准确、可靠、功能齐全、及时、安全、无错误、不间断、持续稳定或无任何故障;
  • 该模型的输出内容不构成任何建议或决策,也不保证生成的内容的真实性、完整性、准确性、及时性、合法性、功能性或实用性。生成的内容不能替代医疗、法律等领域的专业人士回答您的问题。生成的内容仅供参考,不代表华为的任何态度、立场或观点。您需要根据实际情况做出独立判断,华为不承担任何责任。

7. 反馈

如果有任何意见和建议,请提交issue或联系openPangu@huawei.com。