LLaVA

模型	任务列表	是否支持
LLaVA 1.5 7B	训练	✔
LLaVA 1.5 7B	推理	✔
LLaVA 1.5 7B	评估	✔

conda create -n llava python=3.10 -y
conda activate llava
pip install --upgrade pip  # enable PEP 660 support
pip install -e .
pip install -e ".[train]"
pip3 install torch==2.1.0+cpu  --index-url https://download.pytorch.org/whl/cpu  #For X86
pip3 install torch==2.1.0  #For Aarch64
pip3 install accelerate==0.28.0 decorator==5.1.1 scipy==1.13.0 attrs==23.2.0 openpyxl

如果不使用wandb需要卸载wandb，否则程序会报错

pip uninstall wandb

环境准备指导

请参考《Pytorch框架训练环境准备》。

表 1 昇腾软件版本支持表

软件类型支持版本
FrameworkPTAdapter 在研版本
CANN 在研版本
昇腾NPU固件在研版本
昇腾NPU驱动在研版本

软件类型	支持版本
FrameworkPTAdapter	在研版本
CANN	在研版本
昇腾NPU固件	在研版本
昇腾NPU驱动	在研版本

准备数据集

需要自行下载llava_v1_5_mix665k.json指令微调数据集，以及图片数据集，涉及到的图片数据集如下所示：
```
├── coco
│   └── train2017
├── gqa
│   └── images
├── ocr_vqa
│   └── images
├── textvqa
│   └── train_images
└── vg
   ├── VG_100K
   └── VG_100K_2
```
需要将这五个数据集放置到同一个文件夹下，数据集来源请参考 https://github.com/haotian-liu/LLaVA/blob/main/README.md 中的数据准备章节。

准备预训练权重

联网情况下，预训练模型会自动下载。

无网络时，用户可访问huggingface官网自行下载，文件namespace如下：

lmsys/vicuna-7b-v1.5
openai/clip-vit-large-patch14-336
liuhaotian/llava-v1.5-mlp2x-336px-pretrain-vicuna-7b-v1.5

模型训练

训练脚本位置位于scripts/v1_5/finetune_npu.sh，需要手动将数据集，权重的路径传入到相应参数上。

 --model_name_or_path lmsys/vicuna-7b-v1.5  # vicuna权重路径
 --data_path ./playground/data/llava_v1_5_mix665k.json # 指令微调数据的路径
 --image_folder ./playground/data # 图片数据集的路径，路径下包含五个数据集
 --vision_tower openai/clip-vit-large-patch14-336 # clip模型路径
 --pretrain_mm_mlp_adapter ./checkpoints/llava-v1.5-7b-pretrain/mm_projector.bin # mlp adapter路径

运行训练脚本，该模型支持单机8卡训练。
```
bash scripts/v1_5/finetune_npu.sh # 8卡精度及性能 bf16
```
训练完成后，权重文件保存在参数--output_dir路径下。

性能

芯片	卡数	samples per second	batch_size	AMP_Type	Torch_Version
GPU	8p	18.62	16	bf16	2.1
Atlas A2	8p	20.13	16	bf16	2.1

模型评估

评估脚本位于scripts/v1_5/eval下面，这里以textvqa任务为例，测试之前需要准备TextVQA_0.5.1_val.json和train_val_images.zip数据集，解压并传到相关参数上面。执行textvqa.sh脚本即可进行评估。
```
--question-file ./playground/data/eval/textvqa/llava_textvqa_val_v051_ocr.jsonl \
--image-folder ./playground/data/eval/textvqa/train_images \
```

模型推理

推理任务需要传递训练好的模型以及图片到下面的脚本上。

python -m llava.serve.cli \
 --model-path liuhaotian/llava-v1.5-7b \
 --image-file "https://llava-vl.github.io/static/images/view.jpg" \

公网地址说明

代码涉及公网地址参考 public_address_statement.md

版本说明

变更

2024.05.09: 首次发布 2024.05.20: 添加NPU适配代码

FAQ

无

LLaVA

模型	任务列表	是否支持
LLaVA 1.5 7B	训练	✔
LLaVA 1.5 7B	推理	✔
LLaVA 1.5 7B	评估	✔

conda create -n llava python=3.10 -y
conda activate llava
pip install --upgrade pip  # enable PEP 660 support
pip install -e .
pip install -e ".[train]"
pip3 install torch==2.1.0+cpu  --index-url https://download.pytorch.org/whl/cpu  #For X86
pip3 install torch==2.1.0  #For Aarch64
pip3 install accelerate==0.28.0 decorator==5.1.1 scipy==1.13.0 attrs==23.2.0 openpyxl

如果不使用wandb需要卸载wandb，否则程序会报错

pip uninstall wandb

环境准备指导

请参考《Pytorch框架训练环境准备》。

表 1 昇腾软件版本支持表

软件类型支持版本
FrameworkPTAdapter 在研版本
CANN 在研版本
昇腾NPU固件在研版本
昇腾NPU驱动在研版本

软件类型	支持版本
FrameworkPTAdapter	在研版本
CANN	在研版本
昇腾NPU固件	在研版本
昇腾NPU驱动	在研版本

准备数据集

需要自行下载llava_v1_5_mix665k.json指令微调数据集，以及图片数据集，涉及到的图片数据集如下所示：
```
├── coco
│   └── train2017
├── gqa
│   └── images
├── ocr_vqa
│   └── images
├── textvqa
│   └── train_images
└── vg
   ├── VG_100K
   └── VG_100K_2
```
需要将这五个数据集放置到同一个文件夹下，数据集来源请参考 https://github.com/haotian-liu/LLaVA/blob/main/README.md 中的数据准备章节。

准备预训练权重

联网情况下，预训练模型会自动下载。

无网络时，用户可访问huggingface官网自行下载，文件namespace如下：

lmsys/vicuna-7b-v1.5
openai/clip-vit-large-patch14-336
liuhaotian/llava-v1.5-mlp2x-336px-pretrain-vicuna-7b-v1.5

模型训练

训练脚本位置位于scripts/v1_5/finetune_npu.sh，需要手动将数据集，权重的路径传入到相应参数上。

 --model_name_or_path lmsys/vicuna-7b-v1.5  # vicuna权重路径
 --data_path ./playground/data/llava_v1_5_mix665k.json # 指令微调数据的路径
 --image_folder ./playground/data # 图片数据集的路径，路径下包含五个数据集
 --vision_tower openai/clip-vit-large-patch14-336 # clip模型路径
 --pretrain_mm_mlp_adapter ./checkpoints/llava-v1.5-7b-pretrain/mm_projector.bin # mlp adapter路径

运行训练脚本，该模型支持单机8卡训练。
```
bash scripts/v1_5/finetune_npu.sh # 8卡精度及性能 bf16
```
训练完成后，权重文件保存在参数--output_dir路径下。

性能

芯片	卡数	samples per second	batch_size	AMP_Type	Torch_Version
GPU	8p	18.62	16	bf16	2.1
Atlas A2	8p	20.13	16	bf16	2.1

模型评估

评估脚本位于scripts/v1_5/eval下面，这里以textvqa任务为例，测试之前需要准备TextVQA_0.5.1_val.json和train_val_images.zip数据集，解压并传到相关参数上面。执行textvqa.sh脚本即可进行评估。
```
--question-file ./playground/data/eval/textvqa/llava_textvqa_val_v051_ocr.jsonl \
--image-folder ./playground/data/eval/textvqa/train_images \
```

模型推理

推理任务需要传递训练好的模型以及图片到下面的脚本上。

python -m llava.serve.cli \
 --model-path liuhaotian/llava-v1.5-7b \
 --image-file "https://llava-vl.github.io/static/images/view.jpg" \

公网地址说明

代码涉及公网地址参考 public_address_statement.md

版本说明

变更

2024.05.09: 首次发布 2024.05.20: 添加NPU适配代码

FAQ

无

LLaVA

目录

概述

模型介绍

支持任务列表

代码实现

准备训练环境

创建python环境

准备数据集

准备预训练权重

模型训练

性能

模型评估

模型推理

公网地址说明

版本说明

变更

FAQ

LLaVA

目录

概述

模型介绍

支持任务列表

代码实现

准备训练环境

创建python环境

准备数据集

准备预训练权重

模型训练

性能

模型评估

模型推理

公网地址说明

版本说明

变更

FAQ