Qwen-Image-2512 是一种基于Qwen模型系列的图像生成模型。Qwen系列模型是由阿里推出的,专注于大规模图像生成、理解与跨模态任务。这个系列模型的设计与应用,不仅涉及到自然语言处理,还扩展到了图像生成和视觉领域。与8月发布的基础版Qwen-Image 模型相比,Qwen-Image-2512具有以下关键改进:
增强人物真实感 Qwen-Image-2512 显著减少了“AI 生成”感,大幅提升了整体图像的真实感,尤其是在人物主体方面。
更精细的自然细节 Qwen-Image-2512 在渲染自然景观、动物毛发等自然元素时,呈现出明显更细致的视觉效果。
改进的文本渲染 Qwen-Image-2512 提升了文本元素的准确性和质量,实现了更好的布局以及更忠实的多模态(文本+图像)合成效果。
本指导适用于在昇腾A2环境上部署Qwen-Image-2512,详见如下:
|驱动固件|25.0.rc1.1| |CANN版本|8.5.0| |python版本|3.11.14| |torch版本|2.9.0| |torch_npu版本|2.9.0|
docker pull quay.io/ascend/vllm-omni:v0.16.0以把权重下载到/opt/data/models/为例:
###首先安装pip包
pip install huggingface-hub tqdm
###开始下载
HF_ENDPOINT=https://hf-mirror.com python -c "
from huggingface_hub import snapshot_download
snapshot_download(
repo_id='Qwen/Qwen-Image-2512',
local_dir='/opt/data/models/Qwen-Image-2512',
resume_download=True,
local_dir_use_symlinks=False
)
"export IMAGE=quay.io/ascend/vllm-omni:v0.16.0
docker run \
--name vllm-omni \
--shm-size=500g \
--net=host \
--device /dev/davinci0 \
--device /dev/davinci1 \
--device /dev/davinci2 \
--device /dev/davinci3 \
--device /dev/davinci4 \
--device /dev/davinci5 \
--device /dev/davinci6 \
--device /dev/davinci7 \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--privileged=true \
--device /dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/Ascend/driver/tools/hccn_tool:/usr/local/Ascend/driver/tools/hccn_tool \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /root/.cache:/root/.cache \
-v /tmp:/tmp \
-v /opt:/opt \
-it $IMAGE bashcd /vllm-workspace/vllm-omni
python examples/offline_inference/text_to_image/text_to_image.py \
--model /opt/data/models/Qwen-Image-2512/ \
--prompt "a cup of coffee on the table" \
--seed 42 \
--cfg-scale 4.0 \
--num-images-per-prompt 1 \
--num-inference-steps 50 \
--tensor-parallel-size 2 \
--vae-patch-parallel-size 2 \
--vae-use-tiling \
--height 1024 \
--width 1024 \
--output outputs/coffee_2512.png###启动推理服务,指定端口为8091
vllm serve /opt/data/models/Qwen-Image-2512/ --omni --port 8091 --tensor-parallel-size 2 --vae-patch-parallel-size 2 --vae-use-tiling
###在同一容器中调用推理服务,并生成图片
curl -s http://localhost:8091/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"messages": [
{"role": "user", "content": "A beautiful landscape painting"}
],
"extra_body": {
"height": 1024,
"width": 1024,
"num_inference_steps": 50,
"true_cfg_scale": 4.0,
"seed": 42
}
}' | jq -r '.choices[0].message.content[0].image_url.url' | cut -d',' -f2- | base64 -d > output.png