o
openharmony-models/openPangu-VL-7B
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

openPangu-VL-7B

中文 | English | 技术报告

1. 简介

openPangu-VL-7B 是基于昇腾 NPU ,基于openPangu-Embedded-7B-V1.1语言基模和openPangu-ViT-600M视觉编码器训练的高效多模态模型。openPangu-VL-7B 训练了约 3T tokens,具备通用视觉对话、文档理解、目标定位与计数、视频理解、视觉高阶推理等能力。该模型为快思考模型。

2. 模型架构

openPangu-VL-7B
语言模型
ArchitectureDense
Parameters (Non-Embedding)7B
Number of Layers34
Hidden Dimension12800
Attention MechanismGQA
Number of Attention Heads32 for Q,8 for KV
Vocabulary Size153k
Context Length (Natively)128k
视觉编码器
Architecture22 Window Attention + 4 Full Attention
Number of Layers26
Attention Hidden Size1536
FFN Hidden Size4608
Number of Attention Heads16
Parameters615M

3. 测评结果

测评集openPangu-VL-7B
通用视觉对话
MMBench V1.1 DEV86.5
MMStar70.1
RealWorldQA76.1
AI2D84.7
光学符号识别/文档理解
OCRBench907
TextVQA85.1
DocVQA96.0
ChartQA88.3
CharXiv dq/rq83.9/54.3
视觉学科能力
MMMU65.2
MMMU-Pro52.6
MathVista75.0
目标定位/计数
RefCOCO-avg90.6
ODinW-1351.5
CountBench96.1
Point-Bench65.4
多图
BLINK63.3
MUIRBench61.6
视频理解
MVBench74.0
VideoMME (w/o sub)68.0
MLVU76.9
语言能力
MMLU-Pro78.2
MMLU-Redux87.3
GPQA-Diamond65.2
C-Eval83.2
AIME2536.5
Math-50089.4
LiveCodeBenchV624.6
MBPP+68.5
IFEval83.0

注: 评测使用vllm-ascend部署推理,系统prompt为空。一般而言,图片最小分辨率设置为2304*28*28能获得最优的测评效果。(OCRBench中的极小图OCR除外,建议设置为不大于64*28*28。)具体prompt和分辨率设置参见技术报告附录。

4. 部署和使用

vllm-ascend部署(推荐)

  • 使用vllm-ascend推理框架,参考[vllm_ascend_for_openpangu_vl_7b]进行服务部署。

  • 完成推理服务部署后,使用此脚本测试是否部署成功。

cd inference/vllm_ascend/examples; python quick_start.py

直接推理

环境配置:

  • python==3.10
  • CANN==8.1.RC1
cd inference; pip install -r requirements.txt

推理:

cd inference; python generate.py

能力展示

  • 更多推理样例和能力展示,请参见cookbooks。

5. 模型许可证

除文件中对开源许可证另有约定外,openPangu-VL-7B 模型根据 OPENPANGU MODEL LICENSE AGREEMENT VERSION 1.0 授权,旨在允许使用并促进人工智能技术的进一步发展。有关详细信息,请参阅模型存储库根目录中的 LICENSE 文件。

6. 免责声明

由于 openPangu-VL-7B (“模型”)所依赖的技术固有的限制,以及人工智能生成的内容是由盘古自动生成的,华为无法对以下事项做出任何保证:

  • 该模型的输出通过AI算法自动生成,不能排除某些信息可能存在缺陷、不合理或引起不适的可能性,生成的内容不代表华为的态度或立场;
  • 无法保证该模型100%准确、可靠、功能齐全、及时、安全、无错误、不间断、持续稳定或无任何故障;
  • 该模型的输出内容不构成任何建议或决策,也不保证生成的内容的真实性、完整性、准确性、及时性、合法性、功能性或实用性。生成的内容不能替代医疗、法律等领域的专业人士回答您的问题。生成的内容仅供参考,不代表华为的任何态度、立场或观点。您需要根据实际情况做出独立判断,华为不承担任何责任。

7. 反馈

如果有任何意见和建议,请提交issue或联系openPangu@huawei.com。