Qwen-Image-2512 昇腾部署指导

介绍

Qwen-Image-2512 是一种基于Qwen模型系列的图像生成模型。Qwen系列模型是由阿里推出的，专注于大规模图像生成、理解与跨模态任务。这个系列模型的设计与应用，不仅涉及到自然语言处理，还扩展到了图像生成和视觉领域。与8月发布的基础版Qwen-Image 模型相比，Qwen-Image-2512具有以下关键改进：

增强人物真实感 Qwen-Image-2512 显著减少了“AI 生成”感，大幅提升了整体图像的真实感，尤其是在人物主体方面。
更精细的自然细节 Qwen-Image-2512 在渲染自然景观、动物毛发等自然元素时，呈现出明显更细致的视觉效果。
改进的文本渲染 Qwen-Image-2512 提升了文本元素的准确性和质量，实现了更好的布局以及更忠实的多模态（文本+图像）合成效果。

本指导适用于在昇腾A2环境上部署Qwen-Image-2512，详见如下：

环境准备

环境信息

|驱动固件|25.0.rc1.1| |CANN版本|8.5.0| |python版本|3.11.14| |torch版本|2.9.0| |torch_npu版本|2.9.0|

下载镜像

docker pull quay.io/ascend/vllm-omni:v0.16.0

准备权重

以把权重下载到/opt/data/models/为例：

###首先安装pip包
pip install huggingface-hub tqdm

###开始下载
HF_ENDPOINT=https://hf-mirror.com python -c "
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id='Qwen/Qwen-Image-2512',
    local_dir='/opt/data/models/Qwen-Image-2512',
    resume_download=True,
    local_dir_use_symlinks=False
)
"

启动容器

export IMAGE=quay.io/ascend/vllm-omni:v0.16.0
docker run \
    --name vllm-omni \
    --shm-size=500g \
    --net=host \
    --device /dev/davinci0 \
    --device /dev/davinci1 \
    --device /dev/davinci2 \
    --device /dev/davinci3 \
    --device /dev/davinci4 \
    --device /dev/davinci5 \
    --device /dev/davinci6 \
    --device /dev/davinci7 \
    --device /dev/davinci_manager \
    --device /dev/devmm_svm \
    --privileged=true \
    --device /dev/hisi_hdc \
    -v /usr/local/dcmi:/usr/local/dcmi \
    -v /usr/local/Ascend/driver/tools/hccn_tool:/usr/local/Ascend/driver/tools/hccn_tool \
    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
    -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
    -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
    -v /etc/ascend_install.info:/etc/ascend_install.info \
    -v /root/.cache:/root/.cache \
    -v /tmp:/tmp \
    -v /opt:/opt \
    -it $IMAGE bash

离线推理

cd /vllm-workspace/vllm-omni


python examples/offline_inference/text_to_image/text_to_image.py \
  --model /opt/data/models/Qwen-Image-2512/ \
  --prompt "a cup of coffee on the table" \
  --seed 42 \
  --cfg-scale 4.0 \
  --num-images-per-prompt 1 \
  --num-inference-steps 50 \
  --tensor-parallel-size 2 \
  --vae-patch-parallel-size 2 \
  --vae-use-tiling \
  --height 1024 \
  --width 1024 \
  --output outputs/coffee_2512.png

在线推理

###启动推理服务，指定端口为8091

vllm serve /opt/data/models/Qwen-Image-2512/ --omni --port 8091 --tensor-parallel-size 2 --vae-patch-parallel-size 2 --vae-use-tiling

###在同一容器中调用推理服务，并生成图片

curl -s http://localhost:8091/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "messages": [
      {"role": "user", "content": "A beautiful landscape painting"}
    ],
    "extra_body": {
      "height": 1024,
      "width": 1024,
      "num_inference_steps": 50,
      "true_cfg_scale": 4.0,
      "seed": 42
    }
  }' | jq -r '.choices[0].message.content[0].image_url.url' | cut -d',' -f2- | base64 -d > output.png