Ascend-SACT/Qwen3-VL-30B-A3B-Instruct
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

引言

Qwen3-VL-30B-A3B-Instruct 是阿里云通义千问在2025年10月开源的一款多模态视觉语言大模型。

作为Qwen系列的新成员,在多项核心能力上旨在与GPT-5-Mini、Claude4-Sonnet等国际顶尖模型竞争。

下表能帮你快速了解它的核心特性:

特性维度具体描述
模型架构采用混合专家模型,总参数量为300亿,但处理任务时仅激活30亿参数。
核心能力支持图像与文本的联合理解与生成,具备视觉问答、图像描述、多模态推理等能力。
技术亮点原生支持256K长上下文,可扩展至1M;视觉代理能力可操作PC/手机界面;OCR支持32种语言。
性能表现在STEM、视觉问答、OCR、视频理解等多个领域表现优异,部分基准测试中媲美或超越GPT-5-Mini。

昇腾基于vLLM-Ascend推理框架支持Qwen3-VL,兼容当前vLLM-Ascend框架内主流的分布式并行能力,Qwen3-VL系列模型一经发布即实现低代码无缝使能,欢迎广大开发者下载体验,以下为手把手教程:

一、准备运行环境

表1 硬件设备

设备型号NPU配置
Atlas 800I A28*64G
Atlas 800T A28*64G

表2 软件版本配套表

配套版本环境准备指导
Python3.11.13-
torch2.7.1+cpu-
torch_npu2.7.1.dev20250724-
transformers4.57.0-
vllm0.11.0rc3-
vllm_ascend0.11.0rc0-

1.1 获取并安装CANN

1.1.1 软件包下载

Atlas 800I/800T A3(8*64G) CANN版本

1.1.2 安装CANN

# 增加软件包可执行权限,{version}表示软件版本号,{arch}表示CPU架构,{soc}表示昇腾AI处理器的版本。
chmod +x ./Ascend-cann-toolkit_{version}_linux-{arch}.run
chmod +x ./Ascend-cann-kernels-{soc}_{version}_linux.run
chmod +x ./Ascend-cann-nnal_{version}_linux-{arch}.run
# 校验软件包安装文件的一致性和完整性
./Ascend-cann-toolkit_{version}_linux-{arch}.run --check
./Ascend-cann-kernels-{soc}_{version}_linux.run --check
./Ascend-cann-nnal{version}_linux-{arch}.run --check
# 安装
./Ascend-cann-toolkit_{version}_linux-{arch}.run --install
./Ascend-cann-kernels-{soc}_{version}_linux.run --install
./Ascend-cann-nnal{version}_linux-{arch}.run --torch_atb --install

# 设置环境变量
source /usr/local/Ascend/ascend-toolkit/set_env.sh
source /usr/local/Ascend/nnal/atb/set_env.sh

1.2 获取并安装vLLM Ascend镜像

1.2.1 软件包下载

点击下载链接,打开网页后,选择 v0.11.0rc0 版本下载

1.2.2 镜像加载

1、执行以下命令导入镜像

docker load -i v0.11.0rc0.tar

2、执行以下命令查看镜像是否导入成功

docker images | grep v0.11.0rc0

二、下载权重

Qwen3-VL-30B-A3B-Instruct 权重及配置文件说明

模型权重
Qwen3-VL-30B-A3B-Instructhuggingface下载链接

三、运行指导

3.1 单机双卡部署

3.1.1 启动容器服务样例命令

export model_dir="/opt/data/modelscope/models"     # 宿主机保存模型权重的路径
export container_model_dir="/root/models"          # 映射到容器内保存模型权重的路径
export container_name="Qwen3-VL"                   # 指定容器名称
export IMAGE=m.daocloud.io/quay.io/ascend/vllm-ascend:v0.11.0rc0   # 容器镜像的名称
docker run -itd --privileged \
--name ${container_name} \
--net=host \
--shm-size=512g \
--device /dev/davinci0 \
--device /dev/davinci1 \
--device /dev/davinci2 \
--device /dev/davinci3 \
--device /dev/davinci4 \
--device /dev/davinci5 \
--device /dev/davinci6 \
--device /dev/davinci7 \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--device /dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/Ascend/driver/tools/hccn_tool:/usr/local/Ascend/driver/tools/hccn_tool \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /root/.cache:/root/.cache \
-v ${model_dir}:${container_model_dir} \
${IMAGE} /bin/bash

3.1.2 进入容器

docker exec -it -u root Qwen3-VL bash

3.1.3 升级依赖的transformers库

pip install transformers==4.57.0

3.1.4 启动推理服务

  • Qwen3-VL-30B(单机双卡)
# 通过如下ASCEND_RT_VISIBLE_DEVICES环境变量指定使用的NPU卡设备
export ASCEND_RT_VISIBLE_DEVICES=4,5

# 如下/root/models/Qwen/Qwen3-VL-30B-A3B-Instruct 为容器内权重文件的路径,qwen3-vl-30b为指定的模型实例名称
nohup vllm serve /root/models/Qwen/Qwen3-VL-30B-A3B-Instruct \
  --host 0.0.0.0 \
  --port 8000 \
  --tensor-parallel-size 2 \
  --enable-expert-parallel \
  --max-num-seqs 16 \
  --max-num-batched-tokens 4096 \
  --trust-remote-code \
  --no-enable-prefix-caching \
  --gpu-memory-utilization 0.8 \
  --max-model-len 32768 \
  --served-model-name qwen3-vl-30b > ./qwen3-vl-30b.log 2>&1 &

启动推理等待大约3~10分钟,出现如下日志,服务启动成功 alt text

3.2 推理服务验证

3.2.1 命令行方式

1、登录服务器,修改如下命令中{IP地址:端口号}为推理服务所在的IP:端口,通过curl命令进行调用:

curl http://{IP地址:端口号}/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
    "model": "qwen3-vl-30b",
    "messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": [
        {"type": "image_url", "image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/resource/qwen.png"}},
        {"type": "text", "text": "What is the text in the illustrate?"}
        ]}
    ]
}'

样例输出 alt text

3.2.2 API方式

1、创建如下python文件,修改文件中{IP地址:端口号}为推理服务所在的IP:端口,{本地图片路径}替换为实际本地路径

# 文件名 test.py
import requests
import json
import base64

def image_to_base64(file_path):
    with open(file_path, "rb") as f:
        image_byte = f.read()
    return base64.b64encode(image_byte).decode('utf-8')

base64_str = image_to_base64("{本地图片路径}")    # 指定一张本地的图片
url = "http://{IP地址:端口号}/v1/chat/completions"
headers = {
    "Content-Type": "application/json"
}
data = {
    "model": "qwen3-vl-30b",  # 确保mode名称与启动推理服务命令中的served-model-name参数一致
    "messages": [
        {
            "role": "user",
            "content": [
                {"type": "image_url", "image_url": {"url": f"data:image/jpg;base64,{base64_str}"}},
                {"type": "text", "text": "Explain the details in the image."}
            ]
        }
    ],
    "max_tokens": 100,
    "temperature": 0.7
}

response = requests.post(url, headers=headers, data=json.dumps(data))

if response.status_code == 200:
    result = response.json()
    print(result['choices'][0]['message']['content'])
else:
    print(f"请求失败,状态码: {response.status_code}, 响应内容: {response.text}")

2、运行 python ./test.py 命令

样例输出 alt text

四、常见问题

4.1、基于vllm ascend运行Qwen3-VL时出现EngineCore_DP0进程died unexpectedly,如何解决?

【问题现象】 只要推理任务重一些,就会出现如下日志,然后vllm推理服务异常停止 alt text

【问题原因】 创建容器时未显式指定共享内存大小,而容器默认的大小为64MB,对于vllm的进程间通讯来说不够,所以发生内存异常

【解决方案】创建容器时需要通过--shm-size参数显式指定共享内存大小,建议256GB以上 alt text

参考链接:Bug: vllm:EngineCore process coredump while testing TextVQA dataset