Ascend-SACT/Qwen2.5-VL-72B-Instruct
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

1 环境准备

环境配置配置说明
硬件配置Atlas 800T A2 910B2(64G)
驱动版本23.0.5.1
CANN版本8.3.RC2
推理框架vllm-ascend
推理镜像quay.io/ascend/vllm-ascend:v0.11.0rc2
部署方式单机

2 镜像准备

使用vllm-ascend官方镜像:

docker pull quay.io/ascend/vllm-ascend:v0.11.0rc2

3 权重准备

在modelscope上下载权重放在持久卷workdir中,后续以workdir为主要工作目录:

modelscope download --model Qwen/Qwen2.5-VL-72B-Instruct --local_dir /workdir/Qwen/Qwen25-VL-72B-Instruct/

如需要量化,可参考Qwen2.5-VL 量化案例,量化后只需要4张卡进行服务化拉起。

4 服务化拉起

环境变量和拉起服务化的配置如下:

#!/bin/bash
export VLLM_USE_MODELSCOPE=True
export PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:256
export VLLM_USE_V1=1

vllm serve /workdir/Qwen/Qwen25-VL-72B-Instruct/ \
--host 0.0.0.0 \
--port 8000 \
--dtype bfloat16 \
--tensor-parallel-size 8 \
--served-model-name "Qwen25_VL_72B" \
--max_model_len 90000 \
--max-num-batched-tokens 90000 \
--gpu-memory-utilization 0.8 \
--allowed-local-media-path /workdir \
--limit-mm-per-prompt '{"image":8,"video":8}' \
--enable_log_requests 2>&1 | tee -a /workdir/vllm_log/vllm.log

注意点:

  1. host可以按需指定,如使用Pod IP,port端口也可使用其他无冲突的端口;
  2. 当前测试模型上下文长度可支持到90000,可按需配置,配置长上下文长度会降低模型性能,建议根据业务需要调整;
  3. enable_log_requests参数可将请求的prompt内容打印到vllm的log日志中;

5 服务化测试

在workdir中上传一张test.jpg图片,使用如下curl指令进行测试:

curl --proxy "" http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
    "model": "Qwen25_VL_72B",
    "messages": [
    {"role": "user", "content": [
        {"type": "image_url", "image_url": {"url": "file:///workdir/test.jpg"}},
        {"type": "text", "text": "介绍一下图片中的物品。"}
    ]}
    ],
    "max_tokens": 512,
    "stream": false
    }'