o
openharmony-models/openPangu-R-7B-2512
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

openPangu-R-7B-2512

中文 | English

1. 简介

openPangu-R-7B-2512 是基于昇腾 NPU 从零训练的高效大语言模型,参数量为 7B(不含词表Embedding),支持128k长序列处理。训练数据总量约30T tokens,具备快慢思考切换能力。

2. 模型架构

openPangu-R-7B-2512 在模型效率和效果提升方向进行了以下优化:

  • 混合滑窗注意力机制:我们采用1:1的滑窗注意力和全注意力混合机制,在不影响模型精度的情况下大幅减少KV Cache的占用,提升模型推理速度。此外,我们还为所有层引入了Attention Sink策略来保证混合注意力的稳定性。

  • 注意力层优化:我们引入了GroupNorm-based Gated Attention策略,在Gated Attention的基础上,利用 Head-wise RMSNorm(参数共享)对注意力输出进行归一化。该策略在平衡多头特征幅度的同时维持了表征多样性,有效增强了模型训练的稳定性与效果。我们还引入了Partial RoPE机制,仅对Query和Key中1/4维度应用位置编码,提升模型在长文本和短文本任务上的表现。

  • 因果卷积:我们在FFN层的输入前引入了一维因果卷积,通过token之间的信息交互和加权,提升模型FFN层的表达能力,从而进一步提升模型的效果。

详细架构参数如下:

openPangu-R-7B-2512
ArchitectureDense
Parameters (Non-Embedding)7B
Number of Layers27
Hidden Dimension4096
Intermediate Dimension18432
Attention MechanismGQA
Number of Attention Heads32 for Q,8 for KV
Number of MTP Modules1
Vocabulary Size153k
Context Length (Natively)128k
Pretraining Tokens30T

3. 测评结果

开源集测评指标openPangu-R-7B-2512 慢思考openPangu-R-7B-2512 快思考
通用能力
LivebenchAcc (2024-11-25)58.144.5
MMLU-ProExact Match79.176.6
MMLU-ProXAcc68.761.2
RULERAcc83.283.4
LongBench V2Acc33.430.4
IF-EvalPrompt Strict72.878.0
Hallucination-LeaderBoard1-HHEM96.496.8
GPQA-DiamondAvg@475.463.1
SuperGPQAAcc53.148.7
数学能力
AIME24Avg@1686.565.4
AIME25Avg@1675.256.9
CNMO24Avg@3278.567.0
HMMT 2025Avg@16 (February)62.934.0
代码能力
LiveCodeBench V6Avg@3 (01/25~05/25)57.135.8
CodeforcesElo Avg@3 (02/25~09/25)1411.6774.4
Agent工具调用
Ace-BenchAcc (Prompt)61.849.8
Tau-Bench (airline)Avg@3 (FC)50.042.7
Tau-Bench (retail)Avg@3 (FC)69.061.7
Tau2-Bench (airline)Avg@3 (FC)58.059.3
Tau2-Bench (retail)Avg@3 (FC)71.366.4
Tau2-Bench (telecom)Avg@3 (FC)45.043.0
BFCL-v3Acc (Prompt)70.662.7

注: 评测采用 128k 的序列长度、Greedy 解码策略进行。

4. 部署和使用

4.1 环境准备

硬件规格

Atlas 800T A2 (64GB),驱动与固件安装包获取请参照 [Atlas 800T A2]。

软件环境
  • 操作系统:Linux(推荐 openEuler>=24.03)
  • CANN==8.1.RC1,安装准备及流程请参照 [CANN Install]
  • python==3.10
  • torch==2.1.0
  • torch-npu==2.1.0.post12
  • transformers==4.53.2

以上软件配套经过验证,理论可以支持更高版本,如有疑问,可以提交 issue。

4.2 推理样例

下述内容提供 openPangu-R-7B-2512 在 transformers 框架上进行推理的一个简单示例:

运行前请修改 generate.py,添加模型路径。

cd inference
python generate.py

openPangu-R-7B-2512 模型默认为慢思考模式,可以通过以下手段切换至快思考模式:

  • 在代码实例generate.py中,no_thinking_prompt变量的定义展示了切换至快思考模式的具体实现:通过在用户输入末尾添加 /no_think标记,可将当前轮次切换至快思考模式。

4.4 使用推理框架

vllm_ascend:参考[README_CN.md]

5. 模型许可证

除文件中对开源许可证另有约定外,openPangu-R-7B-2512 模型根据 OPENPANGU MODEL LICENSE AGREEMENT VERSION 1.0 授权,旨在允许使用并促进人工智能技术的进一步发展。有关详细信息,请参阅模型存储库根目录中的 LICENSE 文件。

6. 免责声明

由于 openPangu-R-7B-2512(“模型”)所依赖的技术固有的技术限制,以及人工智能生成的内容是由盘古自动生成的,华为无法对以下事项做出任何保证:

  • 尽管该模型的输出由 AI 算法生成,但不能排除某些信息可能存在缺陷、不合理或引起不适的可能性,生成的内容不代表华为的态度或立场;
  • 无法保证该模型 100% 准确、可靠、功能齐全、及时、安全、无错误、不间断、持续稳定或无任何故障;
  • 该模型的输出内容不构成任何建议或决策,也不保证生成的内容的真实性、完整性、准确性、及时性、合法性、功能性或实用性。生成的内容不能替代医疗、法律等领域的专业人士回答您的问题。生成的内容仅供参考,不代表华为的任何态度、立场或观点。您需要根据实际情况做出独立判断,华为不承担任何责任。

7. 反馈

如果有任何意见和建议,请提交issue或联系 openPangu@huawei.com。