| 环境配置 | 配置说明 |
|---|---|
| 硬件配置 | Atlas 800T A2 910B2(64G) |
| 驱动版本 | 23.0.5.1 |
| CANN版本 | 8.3.RC2 |
| 推理框架 | vllm-ascend |
| 推理镜像 | quay.io/ascend/vllm-ascend:v0.11.0rc2 |
| 部署方式 | 单机 |
使用vllm-ascend官方镜像:
docker pull quay.io/ascend/vllm-ascend:v0.11.0rc2在modelscope上下载权重放在持久卷workdir中,后续以workdir为主要工作目录:
modelscope download --model Qwen/Qwen2.5-VL-72B-Instruct --local_dir /workdir/Qwen/Qwen25-VL-72B-Instruct/如需要量化,可参考Qwen2.5-VL 量化案例,量化后只需要4张卡进行服务化拉起。
环境变量和拉起服务化的配置如下:
#!/bin/bash
export VLLM_USE_MODELSCOPE=True
export PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:256
export VLLM_USE_V1=1
vllm serve /workdir/Qwen/Qwen25-VL-72B-Instruct/ \
--host 0.0.0.0 \
--port 8000 \
--dtype bfloat16 \
--tensor-parallel-size 8 \
--served-model-name "Qwen25_VL_72B" \
--max_model_len 90000 \
--max-num-batched-tokens 90000 \
--gpu-memory-utilization 0.8 \
--allowed-local-media-path /workdir \
--limit-mm-per-prompt '{"image":8,"video":8}' \
--enable_log_requests 2>&1 | tee -a /workdir/vllm_log/vllm.log注意点:
在workdir中上传一张test.jpg图片,使用如下curl指令进行测试:
curl --proxy "" http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen25_VL_72B",
"messages": [
{"role": "user", "content": [
{"type": "image_url", "image_url": {"url": "file:///workdir/test.jpg"}},
{"type": "text", "text": "介绍一下图片中的物品。"}
]}
],
"max_tokens": 512,
"stream": false
}'