模型概述

LLaVA-Next-Video 是一个开源聊天机器人，通过在多模态指令跟随数据上微调大语言模型（LLM）进行训练。该模型基于 LLaVa-NeXT 构建，并通过对视频和图像数据的混合调整来实现更好的视频理解能力。视频被均匀采样为每段 32 帧。该模型是 VideoMME 基准中开源模型中的当前 SOTA。具体描述见下文模型链接。

安装环境

本项目提供该模型在昇腾 Atlas A2推理服务器基于 vllm-ascend的推理使用指导部署时的基础环境是 quay.io/ascend/vllm-ascend:v0.10.0rc1

硬件资源

NPU资源：1卡910B
CPU：arm

配置并启动容器

下载模型

模型来自 https://modelscope.cn/models/swift/LLaVA-NeXT-Video-7B-hf

下载到本地，需要先安装社区安装工具

pip install modelscope

权重下载

mkdir /home/model/llava-hf
mkdir  /home/model/llava-hf/LLaVA-NeXT-Video-7B-hf
modelscope download --model llava-hf/LLaVA-NeXT-Video-7B-hf --local_dir /home/model/llava-hf/LLaVA-NeXT-Video-7B-hf

# 推荐后台执行方式
nohup modelscope download --model llava-hf/LLaVA-NeXT-Video-7B-hf --local_dir /home/model/llava-hf/LLaVA-NeXT-Video-7B-hf &

启动容器

使用的容器为quay.io/ascend/vllm-ascend:v0.10.0rc1，可以通过docker pull拉取。

docker run -itd -u 0  --ipc=host  --privileged \
-e VLLM_USE_MODELSCOPE=True -e PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:256 \
-e  ASCEND_RT_VISIBLE_DEVICES=4 \
--name vllm-llval-next-video-7b-hf-test \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--device /dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /home/model:/model \
-v /home/data:/data \
-p 8013:8000 \
-it quay.io/ascend/vllm-ascend:v0.10.0rc1 bash

进入一个正在运行的容器

使用 docker exec -it <容器名> /bin/bash 进入一个正在运行的容器

docker exec -it vllm-llval-next-video-7b-hf-test bash

容器内启动vllm推理服务

nohup  vllm serve /model/llava-hf/LLaVA-NeXT-Video-7B-hf &

验证

1. 在容器外查看模型

curl http://localhost:8013/v1/models

2. 验证功能

curl http://localhost:8013/v1/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"/model/llava-hf/LLaVA-NeXT-Video-7B-hf","prompt":"说出你认为中国最宜居的城市","max_tokens":1024,"temperature":0.7,"top_p":0.8}'