Qwen3-VL-4B-Instruct是阿里通义千问团队推出的一款高性能轻量级视觉语言模型。它凭借40亿参数的紧凑设计,在保持强大多模态理解能力的同时,显著降低了硬件部署门槛,让开发者能在消费级显卡(如RTX 3060)甚至个人电脑(如16GB内存的Mac)上流畅运行。
该模型的核心能力与特点可总结为下表:
| 特性维度 | 具体描述 |
|---|---|
| 架构与规模 | 参数规模为40亿(4B),采用“视觉编码器+语言模型解码器”的经典多模态架构。 |
| 多模态能力 | 原生支持对文本、图像、视频的联合理解与生成。具备高级的空间感知(2D/3D)、视觉智能体(GUI操作)、视觉编程(从图像生成代码) 等能力。 |
| 核心技术 | 1. 交错式MRoPE位置编码:增强对长视频和图像序列的时空建模能力。 2. DeepStack多层特征融合:融合不同层级的视觉特征,提升细节捕捉和图文对齐精度。 3. 文本-时间戳对齐:实现精确的视频事件时序定位。 |
| 上下文长度 | 原生支持 256K token 的长上下文,可扩展至百万级,能处理整本书籍或数小时的视频内容。 |
| 量化与部署 | 提供 FP8量化版本,模型体积和显存占用大幅降低(如低至3.8GB),可在8GB显存的消费级显卡(如RTX 4060)或16GB内存的Mac上部署运行。 |
| 性能表现 | 在多模态权威评测(如STEM、OCR、视频理解)中,性能可与参数规模更大的同级别顶尖模型(如Gemini 2.5 Flash Lite、GPT-5 Nano)相媲美,部分任务甚至接近更大规模的72B版本。 |
Qwen3-VL-4B-Instruct通过架构创新在性能和效率间取得了优秀平衡,为中小企业和个人开发者提供了低成本、可私有化部署的多模态AI解决方案。
昇腾基于vLLM-Ascend推理框架支持Qwen3-VL,兼容当前vLLM-Ascend框架内主流的分布式并行能力,Qwen3-VL系列模型一经发布即实现低代码无缝使能,欢迎广大开发者下载体验,探索其在复杂推理场景下的卓越能力。
表1 硬件设备
| 设备型号 | NPU配置 |
|---|---|
| Atlas 800I A2 | 8*64G |
| Atlas 800T A2 | 8*64G |
表2 软件版本配套表
| 配套 | 版本 | 环境准备指导 |
|---|---|---|
| Python | 3.11.13 | - |
| torch | 2.7.1+cpu | - |
| torch_npu | 2.7.1 | - |
| transformers | 4.57.1 | - |
| vllm | 0.11.0+empty | - |
| vllm_ascend | 0.11.0rc2 | - |
Atlas 800I/800T A3(8*64G) CANN版本
# 增加软件包可执行权限,{version}表示软件版本号,{arch}表示CPU架构,{soc}表示昇腾AI处理器的版本。
chmod +x ./Ascend-cann-toolkit_{version}_linux-{arch}.run
chmod +x ./Ascend-cann-kernels-{soc}_{version}_linux.run
chmod +x ./Ascend-cann-nnal_{version}_linux-{arch}.run
# 校验软件包安装文件的一致性和完整性
./Ascend-cann-toolkit_{version}_linux-{arch}.run --check
./Ascend-cann-kernels-{soc}_{version}_linux.run --check
./Ascend-cann-nnal{version}_linux-{arch}.run --check
# 安装
./Ascend-cann-toolkit_{version}_linux-{arch}.run --install
./Ascend-cann-kernels-{soc}_{version}_linux.run --install
./Ascend-cann-nnal{version}_linux-{arch}.run --torch_atb --install
# 设置环境变量
source /usr/local/Ascend/ascend-toolkit/set_env.sh
source /usr/local/Ascend/nnal/atb/set_env.sh点击下载链接,打开网页后,选择 v0.11.0rc2 版本下载
1、执行以下命令导入镜像
docker load -i v0.11.0rc2.tar2、执行以下命令查看镜像是否导入成功
docker images | grep v0.11.0rc2Qwen3-VL-4B-Instruct 权重及配置文件说明
| 模型 | 权重 |
|---|---|
| Qwen3-VL-4B-Instruct | huggingface下载链接 |
export model_dir="/opt/data/models" # 宿主机保存模型权重的路径
export container_model_dir="/root/models" # 映射到容器内保存模型权重的路径
export container_name="Qwen3-VL" # 指定容器名称
export IMAGE=m.daocloud.io/quay.io/ascend/vllm-ascend:v0.11.0rc2 # 容器镜像的名称
docker run -itd --privileged \
--name ${container_name} \
--net=host \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--device /dev/hisi_hdc \
--shm-size=256g \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/Ascend/driver/tools/hccn_tool:/usr/local/Ascend/driver/tools/hccn_tool \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v ${model_dir}:${container_model_dir} \
$IMAGE /bin/bashdocker exec -it -u root Qwen3-VL bash# 通过如下ASCEND_RT_VISIBLE_DEVICES环境变量指定使用的NPU卡设备
export ASCEND_RT_VISIBLE_DEVICES=5
# 如下/root/models/Qwen/Qwen3-VL-4B-Instruct 为容器内权重文件的路径,qwen3-vl-4b为指定的模型实例名称
nohup vllm serve /root/models/Qwen/Qwen3-VL-4B-Instruct \
--host 0.0.0.0 \
--port 33030 \
--tensor-parallel-size 1 \
--max-num-seqs 4 \
--max-num-batched-tokens 4096 \
--trust-remote-code \
--no-enable-prefix-caching \
--gpu-memory-utilization 0.85 \
--max-model-len 32768 \
--served-model-name qwen3-vl-4b > ./qwen3-vl-4b.log 2>&1 &启动推理等待大约3~5分钟,出现如下日志,服务启动成功

1、登录服务器,修改如下命令中{IP地址:端口号}为推理服务所在的IP:端口,通过curl命令进行调用:
curl http://{IP地址:端口号}/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-vl-4b",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": [
{"type": "image_url", "image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/resource/qwen.png"}},
{"type": "text", "text": "What is the text in the illustrate?"}
]}
]
}'样例输出

1、创建如下python文件,修改文件中{IP地址:端口号}为推理服务所在的IP:端口,{本地图片路径}替换为实际本地路径
# 文件名 test.py
import requests
import json
import base64
def image_to_base64(file_path):
with open(file_path, "rb") as f:
image_byte = f.read()
return base64.b64encode(image_byte).decode('utf-8')
base64_str = image_to_base64("{本地图片路径}") # 指定一张本地的图片
url = "http://{IP地址:端口号}/v1/chat/completions"
headers = {
"Content-Type": "application/json"
}
data = {
"model": "qwen3-vl-4b", # 确保mode名称与启动推理服务命令中的served-model-name参数一致
"messages": [
{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": f"data:image/jpg;base64,{base64_str}"}},
{"type": "text", "text": "Explain the details in the image."}
]
}
],
"max_tokens": 100,
"temperature": 0.7
}
response = requests.post(url, headers=headers, data=json.dumps(data))
if response.status_code == 200:
result = response.json()
print(result['choices'][0]['message']['content'])
else:
print(f"请求失败,状态码: {response.status_code}, 响应内容: {response.text}")2、运行 python ./test.py 命令
样例输出
