Z-Image-Turbo vLLM-Omni推理部署

引言

Z-Image是一个高效的60亿参数图像生成基础模型。它通过系统性的优化证明了顶尖性能的实现无需依赖巨大规模，在照片级真实感图像生成和中英双语文本渲染方面效果突出，其品质可与顶级商业模型相媲美。

vLLM-Omni是 vLLM 生态向“全模态（omni-modality）”时代迈出的关键一步，专门为新一代看得见、听得懂、会说话、能生成多种媒介的模型设计的推理框架。

本文将介绍，基于vLLM-Omn部署 Z-Image-Turbo 推理服务。

一、运行环境准备

表 1 版本配套表

配套	版本	环境准备指导
CANN	8.3.RC1	快速安装CANN
Python	3.10.12	-
torch	2.8.0+cpu	-
torch_npu	2.8.0	-

1 安装软件包

执行如下命令：

apt update
apt install jq
pip insatll peft==0.17.0
pip torchvision==0.23.0+cpu
pip install vllm==0.12.0
pip install vllm-ascend==0.12.0rc1

2 安装vLLM-Omni

执行如下命令：

git clone https://github.com/vllm-project/vllm-omni.git
cd vllm-omni
pip install -e .

3 检查软件包版本

如果torch版本被动升级，如下命令重新安装：

pip insatll torch==2.8.0+cpu --no-deps

二、权重下载

执行如下命令：

modelscope download --model Tongyi-MAI/Z-Image-Turbo --local_dir ./Z-Image-Turbo

三、启动服务

执行如下命令：

vllm serve ./models/Z-Image-Turbo --omni --tensor-parallel-size 1

四、功能验证

执行如下命令：

curl -s http://localhost:8000/v1/chat/completions   -H "Content-Type: application/json"   -d '{
    "messages": [
      {"role": "user", "content": "a cup of coffee on the table"}
    ],
    "extra_body": {
      "height": 1024,
      "width": 1024,
      "num_inference_steps": 50,
      "guidance_scale": 4.0,
      "seed": 42
    }
  }' | jq -r '.choices[0].message.content[0].image_url.url' | cut -d',' -f2 | base64 -d > coffee.png

Z-Image-Turbo vLLM-Omni推理部署

引言

vLLM-Omni是 vLLM 生态向“全模态（omni-modality）”时代迈出的关键一步，专门为新一代看得见、听得懂、会说话、能生成多种媒介的模型设计的推理框架。

本文将介绍，基于vLLM-Omn部署 Z-Image-Turbo 推理服务。

一、运行环境准备

表 1 版本配套表

配套	版本	环境准备指导
CANN	8.3.RC1	快速安装CANN
Python	3.10.12	-
torch	2.8.0+cpu	-
torch_npu	2.8.0	-

1 安装软件包

执行如下命令：

apt update
apt install jq
pip insatll peft==0.17.0
pip torchvision==0.23.0+cpu
pip install vllm==0.12.0
pip install vllm-ascend==0.12.0rc1

2 安装vLLM-Omni

执行如下命令：

git clone https://github.com/vllm-project/vllm-omni.git
cd vllm-omni
pip install -e .

3 检查软件包版本

如果torch版本被动升级，如下命令重新安装：

pip insatll torch==2.8.0+cpu --no-deps

二、权重下载

执行如下命令：

modelscope download --model Tongyi-MAI/Z-Image-Turbo --local_dir ./Z-Image-Turbo

三、启动服务

执行如下命令：

vllm serve ./models/Z-Image-Turbo --omni --tensor-parallel-size 1

四、功能验证

执行如下命令：

curl -s http://localhost:8000/v1/chat/completions   -H "Content-Type: application/json"   -d '{
    "messages": [
      {"role": "user", "content": "a cup of coffee on the table"}
    ],
    "extra_body": {
      "height": 1024,
      "width": 1024,
      "num_inference_steps": 50,
      "guidance_scale": 4.0,
      "seed": 42
    }
  }' | jq -r '.choices[0].message.content[0].image_url.url' | cut -d',' -f2 | base64 -d > coffee.png