LLaVA-Next-Video 是一个开源聊天机器人,通过在多模态指令跟随数据上微调大语言模型(LLM)进行训练。该模型基于 LLaVa-NeXT 构建,并通过对视频和图像数据的混合调整来实现更好的视频理解能力。视频被均匀采样为每段 32 帧。 该模型是 VideoMME 基准中开源模型中的当前 SOTA。 具体描述见下文模型链接。
本项目提供该模型在昇腾 Atlas A2推理服务器基于 vllm-ascend的推理使用指导 部署时的基础环境是 quay.io/ascend/vllm-ascend:v0.10.0rc1
硬件资源
模型来自 https://modelscope.cn/models/swift/LLaVA-NeXT-Video-7B-hf
下载到本地,需要先安装社区安装工具
pip install modelscope权重下载
mkdir /home/model/llava-hf
mkdir /home/model/llava-hf/LLaVA-NeXT-Video-7B-hf
modelscope download --model llava-hf/LLaVA-NeXT-Video-7B-hf --local_dir /home/model/llava-hf/LLaVA-NeXT-Video-7B-hf
# 推荐后台执行方式
nohup modelscope download --model llava-hf/LLaVA-NeXT-Video-7B-hf --local_dir /home/model/llava-hf/LLaVA-NeXT-Video-7B-hf &使用的容器为quay.io/ascend/vllm-ascend:v0.10.0rc1,可以通过docker pull拉取。
docker run -itd -u 0 --ipc=host --privileged \
-e VLLM_USE_MODELSCOPE=True -e PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:256 \
-e ASCEND_RT_VISIBLE_DEVICES=4 \
--name vllm-llval-next-video-7b-hf-test \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--device /dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /home/model:/model \
-v /home/data:/data \
-p 8013:8000 \
-it quay.io/ascend/vllm-ascend:v0.10.0rc1 bash使用 docker exec -it <容器名> /bin/bash 进入一个正在运行的容器
docker exec -it vllm-llval-next-video-7b-hf-test bash容器内启动vllm推理服务
nohup vllm serve /model/llava-hf/LLaVA-NeXT-Video-7B-hf &curl http://localhost:8013/v1/modelscurl http://localhost:8013/v1/completions \
-H "Content-Type: application/json" \
-d '{"model":"/model/llava-hf/LLaVA-NeXT-Video-7B-hf","prompt":"说出你认为中国最宜居的城市","max_tokens":1024,"temperature":0.7,"top_p":0.8}'