Qwen2.5-VL-72B-Instruct:提供在Atlas 800T A2硬件上，使用vllm-ascend框架部署Qwen2.5-VL-72B-Instruct模型的完整流程，支持长上下文与多模态交互，含环境配置、服务拉起及测试方法。【此简介由AI生成】

1 环境准备

环境配置	配置说明
硬件配置	Atlas 800T A2 910B2(64G)
驱动版本	23.0.5.1
CANN版本	8.3.RC2
推理框架	vllm-ascend
推理镜像	quay.io/ascend/vllm-ascend:v0.11.0rc2
部署方式	单机

2 镜像准备

使用vllm-ascend官方镜像：

docker pull quay.io/ascend/vllm-ascend:v0.11.0rc2

3 权重准备

在modelscope上下载权重放在持久卷workdir中，后续以workdir为主要工作目录：

modelscope download --model Qwen/Qwen2.5-VL-72B-Instruct --local_dir /workdir/Qwen/Qwen25-VL-72B-Instruct/

如需要量化，可参考Qwen2.5-VL 量化案例，量化后只需要4张卡进行服务化拉起。

4 服务化拉起

环境变量和拉起服务化的配置如下：

#!/bin/bash
export VLLM_USE_MODELSCOPE=True
export PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:256
export VLLM_USE_V1=1

vllm serve /workdir/Qwen/Qwen25-VL-72B-Instruct/ \
--host 0.0.0.0 \
--port 8000 \
--dtype bfloat16 \
--tensor-parallel-size 8 \
--served-model-name "Qwen25_VL_72B" \
--max_model_len 90000 \
--max-num-batched-tokens 90000 \
--gpu-memory-utilization 0.8 \
--allowed-local-media-path /workdir \
--limit-mm-per-prompt '{"image":8,"video":8}' \
--enable_log_requests 2>&1 | tee -a /workdir/vllm_log/vllm.log

注意点：

host可以按需指定，如使用Pod IP，port端口也可使用其他无冲突的端口；
当前测试模型上下文长度可支持到90000，可按需配置，配置长上下文长度会降低模型性能，建议根据业务需要调整；
enable_log_requests参数可将请求的prompt内容打印到vllm的log日志中；

5 服务化测试

在workdir中上传一张test.jpg图片，使用如下curl指令进行测试：

curl --proxy "" http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
    "model": "Qwen25_VL_72B",
    "messages": [
    {"role": "user", "content": [
        {"type": "image_url", "image_url": {"url": "file:///workdir/test.jpg"}},
        {"type": "text", "text": "介绍一下图片中的物品。"}
    ]}
    ],
    "max_tokens": 512,
    "stream": false
    }'

环境配置

配置说明

硬件配置

Atlas 800T A2 910B2(64G)

驱动版本

23.0.5.1

CANN版本

8.3.RC2

推理框架

vllm-ascend

推理镜像

quay.io/ascend/vllm-ascend:v0.11.0rc2

部署方式

单机