中文 | English
openPangu-2.0-Flash 是基于昇腾 NPU 训练的大规模混合专家(MoE)语言模型,参数规模约 92B,每 token 激活参数规模约 6B,模型支持 512k 上下文长度,训练数据总量约34T tokens。后训练阶段完成快慢合一微调(SFT)、多专项强化学习(RL),并通过在线蒸馏(OPD)完成能力合一。
openPangu-2.0-Flash 在模型架构上实现了全面的升级:
| 测评集 | 测评指标 | openPangu-2.0-Flash-Thinking | openPangu-2.0-Flash-Non-Thinking |
|---|---|---|---|
| 通用能力 | |||
| CL-Bench | Acc | 20.4 | 15.5 |
| IFEval | Prompt Strict | 95.9 | 89.3 |
| IFBench | Prompt Strict | 79.6 | 54.4 |
| AgentIF | (CSR+ISR)/2 | 44.9 | 43.9 |
| SysBench | ISR | 91.1 | 87.9 |
| Multichallenge | Acc | 68.4 | 51.9 |
| 推理能力 | |||
| AIME 2026 | Avg@16 | 93.3 | 86.5 |
| - w/ Python | Avg@16 | 98.1 | - |
| HMMT Feb 2025 | Avg@16 | 91.5 | 67.1 |
| - w/ Python | Avg@16 | 96.9 | - |
| IMO-AnswerBench | Acc | 76.5 | 62.3 |
| - w/ Python | Acc | 80.8 | - |
| BBEH | Harmonic Mean | 62.5 | 51.5 |
| GPQA-Diamond | Avg@4 | 83.7 | 79.8 |
| Agent能力 | |||
| BrowseComp | Acc | 57.0 | - |
| SkillsBench | Avg@5 | 42.6 | 40.0 |
| PinchBench | Avg@3 | 85.6 | 82.5 |
| Claw-Eval | Pass^3 | 57.7 | 58.2 |
| WildClawBench | Avg@3 | 41.5 | 35.0 |
| MCP-Atlas | Acc | 58.9 | 47.9 |
| TAU2-Bench | Avg@3 | 88.0 | 74.0 |
| 代码能力 | |||
| LiveCodeBench V6 | Avg@3 | 85.1 | 50.9 |
| DeepCodeBench | Avg@3 | 76.5 | 70.9 |
| SWE-bench Verified | Avg@3 | 63.1 | 57.6 |
| FeatBench | Avg@3 | 45.9 | 45.8 |
除文件中对开源许可证另有约定外,openPangu-2.0-Flash 模型根据 OPENPANGU MODEL LICENSE AGREEMENT VERSION 2.0 授权,旨在允许使用并促进人工智能技术的进一步发展。有关详细信息,请参阅模型存储库根目录中的 LICENSE 文件。
由于 openPangu-2.0-Flash (“模型”)所依赖的技术固有的限制,以及人工智能生成的内容是由模型自动生成的,华为无法对以下事项做出任何保证:
如果有任何意见和建议,请提交issue或联系openPangu@huawei.com。