⚡️- Image
_{^{基于单流扩散Transformer的高效图像生成基础模型}}

欢迎来到Z-Image（造相）项目的官方代码库！

✨ Z-Image

Z-Image是一个功能强大且高效的图像生成模型系列，拥有60亿参数。目前包含四个变体：

🚀 Z-Image-Turbo——Z-Image的蒸馏版本，仅需8次函数评估（NFE） 即可达到或超越主流竞品水平。在企业级H800 GPU上实现**⚡️亚秒级推理延迟⚡️**，并能在16G显存的消费级设备上流畅运行。它在逼真图像生成、双语文本渲染（中英文）以及指令遵循方面表现卓越。
🎨 Z-Image——Z-Image-Turbo的基础模型。Z-Image专注于高质量生成、丰富美学表现、强大多样性和可控性，非常适合创意生成、微调和下游开发。它支持多种艺术风格，可有效进行负面提示，并在人物身份、姿态、构图和布局等方面展现出高度多样性。
🧱 Z-Image-Omni-Base——具备生成与编辑双重能力的通用基础模型。通过发布此 checkpoint，我们旨在释放社区驱动的微调和定制开发潜力，为开源社区提供最"原始"且多样化的起点。
✍️ Z-Image-Edit——基于Z-Image微调的图像编辑专用变体。它支持创意性图像到图像生成，具有出色的指令遵循能力，可根据自然语言提示进行精确编辑。

📥 模型库

模型	预训练	监督微调	强化学习	步数	引导尺度	任务	视觉质量	多样性	微调难度	Hugging Face	ModelScope
Z-Image-Omni-Base	✅	❌	❌	50	✅	生成/编辑	中等	高	简单	即将发布	即将发布
Z-Image	✅	✅	❌	50	✅	生成	高	中等	简单
Z-Image-Turbo	✅	✅	✅	8	❌	生成	极高	低	不适用
Z-Image-Edit	✅	✅	❌	50	✅	编辑	高	中等	简单	即将发布	即将发布

🖼️ 效果展示

📸 逼真画质：Z-Image-Turbo 在生成高度逼真图像的同时，还能保持出色的美学品质。

Z-Image 逼真图像生成效果展示

📖 精准双语文字渲染：Z-Image-Turbo 擅长精准渲染复杂的中英文文字。

Z-Image 双语文字渲染效果展示

💡 提示词增强与推理：提示词增强器赋予模型推理能力，使其能够超越表面描述，挖掘深层的世界知识。

🧠 创意图像编辑：Z-Image-Edit 对双语编辑指令有深刻理解，可实现富有想象力且灵活的图像变换。

Z-Image-Edit 图像编辑效果展示

🏗️ 模型架构

我们采用 可扩展单流 DiT（S3-DiT）架构。在此架构中，文本、视觉语义令牌和图像 VAE 令牌在序列级别进行拼接，作为统一的输入流，与双流方法相比，可最大限度地提高参数效率。

Z-Image 与 Z-Image-Edit 架构

📈 性能表现

根据基于 Elo 的人类偏好评估（在 Alibaba AI Arena 平台上），Z-Image-Turbo 与其他领先模型相比表现出极强的竞争力，同时在开源模型中达到了最先进的结果。

点击查看完整排行榜

🚀 快速开始

安装最新版本的 diffusers，请使用以下命令：

^{点击此处了解为何需要从源码安装 diffusers}

我们已向 🤗 diffusers 仓库提交了两个拉取请求（#12703 和 #12715），以添加对 Z-Image 的支持。这两个 PR 均已合并到最新的官方 diffusers 版本中。因此，您需要从源码安装 diffusers 以获取最新功能和 Z-Image 支持。

pip install git+https://github.com/huggingface/diffusers

import torch
from diffusers import ZImagePipeline

# 1. Load the pipeline
# Use bfloat16 for optimal performance on supported GPUs
pipe = ZImagePipeline.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo",
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=False,
)
pipe.to("cuda")

# [Optional] Attention Backend
# Diffusers uses SDPA by default. Switch to Flash Attention for better efficiency if supported:
# pipe.transformer.set_attention_backend("flash")    # Enable Flash-Attention-2
# pipe.transformer.set_attention_backend("_flash_3") # Enable Flash-Attention-3

# [Optional] Model Compilation
# Compiling the DiT model accelerates inference, but the first run will take longer to compile.
# pipe.transformer.compile()

# [Optional] CPU Offloading
# Enable CPU offloading for memory-constrained devices.
# pipe.enable_model_cpu_offload()

prompt = "Young Chinese woman in red Hanfu, intricate embroidery. Impeccable makeup, red floral forehead pattern. Elaborate high bun, golden phoenix headdress, red flowers, beads. Holds round folding fan with lady, trees, bird. Neon lightning-bolt lamp (⚡️), bright yellow glow, above extended left palm. Soft-lit outdoor night background, silhouetted tiered pagoda (西安大雁塔), blurred colorful distant lights."

# 2. Generate Image
image = pipe(
    prompt=prompt,
    height=1024,
    width=1024,
    num_inference_steps=9,  # This actually results in 8 DiT forwards
    guidance_scale=0.0,     # Guidance should be 0 for the Turbo models
    generator=torch.Generator("cuda").manual_seed(42),
).images[0]

image.save("example.png")

🔬 Decoupled-DMD：Z-Image背后的加速魔法

Decoupled-DMD是赋能8步Z-Image模型的核心少步蒸馏算法。

我们在Decoupled-DMD中的核心见解是，现有DMD（分布匹配蒸馏）方法的成功源于两个相互独立又协同工作的机制：

CFG增强（CA）：驱动蒸馏过程的主要引擎🚀，这一因素在先前的研究中很大程度上被忽视了。
分布匹配（DM）：更像是一种正则化器⚖️，确保生成输出的稳定性和质量。

通过识别并解耦这两种机制，我们能够对它们进行独立研究和优化。这最终促使我们开发出一种改进的蒸馏流程，显著提升了少步生成的性能。

Decoupled-DMD示意图

🤖 DMDR：融合DMD与强化学习

在Decoupled-DMD的坚实基础上，我们的8步Z-Image模型已经展现出卓越的能力。为了在语义对齐、美学质量和结构一致性方面实现进一步提升，同时生成具有更丰富高频细节的图像，我们提出了DMDR。

DMDR背后的核心见解是，在少步模型的后训练阶段，可以将强化学习（RL）与分布匹配蒸馏（DMD）进行协同整合。我们证明：

RL释放DMD的性能🚀
DMD有效正则化RL⚖️

DMDR示意图

⏬ 下载

pip install -U huggingface_hub
HF_XET_HIGH_PERFORMANCE=1 hf download Tongyi-MAI/Z-Image-Turbo

📜 引用说明

如果您觉得我们的研究成果对您的研究有所帮助，请考虑引用：

@article{team2025zimage,
  title={Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer},
  author={Z-Image Team},
  journal={arXiv preprint arXiv:2511.22699},
  year={2025}
}

@article{liu2025decoupled,
  title={Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield},
  author={Dongyang Liu and Peng Gao and David Liu and Ruoyi Du and Zhen Li and Qilong Wu and Xin Jin and Sihan Cao and Shifeng Zhang and Hongsheng Li and Steven Hoi},
  journal={arXiv preprint arXiv:2511.22677},
  year={2025}
}

@article{jiang2025distribution,
  title={Distribution Matching Distillation Meets Reinforcement Learning},
  author={Jiang, Dengyang and Liu, Dongyang and Wang, Zanyi and Wu, Qilong and Jin, Xin and Liu, David and Li, Zhen and Wang, Mengmeng and Gao, Peng and Yang, Harry},
  journal={arXiv preprint arXiv:2511.13649},
  year={2025}
}

⚡️- Image
_{^{基于单流扩散Transformer的高效图像生成基础模型}}

欢迎来到Z-Image（造相）项目的官方代码库！

✨ Z-Image

Z-Image是一个功能强大且高效的图像生成模型系列，拥有60亿参数。目前包含四个变体：

🚀 Z-Image-Turbo——Z-Image的蒸馏版本，仅需8次函数评估（NFE） 即可达到或超越主流竞品水平。在企业级H800 GPU上实现**⚡️亚秒级推理延迟⚡️**，并能在16G显存的消费级设备上流畅运行。它在逼真图像生成、双语文本渲染（中英文）以及指令遵循方面表现卓越。
🎨 Z-Image——Z-Image-Turbo的基础模型。Z-Image专注于高质量生成、丰富美学表现、强大多样性和可控性，非常适合创意生成、微调和下游开发。它支持多种艺术风格，可有效进行负面提示，并在人物身份、姿态、构图和布局等方面展现出高度多样性。
🧱 Z-Image-Omni-Base——具备生成与编辑双重能力的通用基础模型。通过发布此 checkpoint，我们旨在释放社区驱动的微调和定制开发潜力，为开源社区提供最"原始"且多样化的起点。
✍️ Z-Image-Edit——基于Z-Image微调的图像编辑专用变体。它支持创意性图像到图像生成，具有出色的指令遵循能力，可根据自然语言提示进行精确编辑。

📥 模型库

模型	预训练	监督微调	强化学习	步数	引导尺度	任务	视觉质量	多样性	微调难度	Hugging Face	ModelScope
Z-Image-Omni-Base	✅	❌	❌	50	✅	生成/编辑	中等	高	简单	即将发布	即将发布
Z-Image	✅	✅	❌	50	✅	生成	高	中等	简单
Z-Image-Turbo	✅	✅	✅	8	❌	生成	极高	低	不适用
Z-Image-Edit	✅	✅	❌	50	✅	编辑	高	中等	简单	即将发布	即将发布

🖼️ 效果展示

📸 逼真画质：Z-Image-Turbo 在生成高度逼真图像的同时，还能保持出色的美学品质。

Z-Image 逼真图像生成效果展示

📖 精准双语文字渲染：Z-Image-Turbo 擅长精准渲染复杂的中英文文字。

Z-Image 双语文字渲染效果展示

💡 提示词增强与推理：提示词增强器赋予模型推理能力，使其能够超越表面描述，挖掘深层的世界知识。

🧠 创意图像编辑：Z-Image-Edit 对双语编辑指令有深刻理解，可实现富有想象力且灵活的图像变换。

Z-Image-Edit 图像编辑效果展示

🏗️ 模型架构

Z-Image 与 Z-Image-Edit 架构

📈 性能表现

点击查看完整排行榜

🚀 快速开始

安装最新版本的 diffusers，请使用以下命令：

^{点击此处了解为何需要从源码安装 diffusers}

pip install git+https://github.com/huggingface/diffusers

import torch
from diffusers import ZImagePipeline

# 1. Load the pipeline
# Use bfloat16 for optimal performance on supported GPUs
pipe = ZImagePipeline.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo",
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=False,
)
pipe.to("cuda")

# [Optional] Attention Backend
# Diffusers uses SDPA by default. Switch to Flash Attention for better efficiency if supported:
# pipe.transformer.set_attention_backend("flash")    # Enable Flash-Attention-2
# pipe.transformer.set_attention_backend("_flash_3") # Enable Flash-Attention-3

# [Optional] Model Compilation
# Compiling the DiT model accelerates inference, but the first run will take longer to compile.
# pipe.transformer.compile()

# [Optional] CPU Offloading
# Enable CPU offloading for memory-constrained devices.
# pipe.enable_model_cpu_offload()

prompt = "Young Chinese woman in red Hanfu, intricate embroidery. Impeccable makeup, red floral forehead pattern. Elaborate high bun, golden phoenix headdress, red flowers, beads. Holds round folding fan with lady, trees, bird. Neon lightning-bolt lamp (⚡️), bright yellow glow, above extended left palm. Soft-lit outdoor night background, silhouetted tiered pagoda (西安大雁塔), blurred colorful distant lights."

# 2. Generate Image
image = pipe(
    prompt=prompt,
    height=1024,
    width=1024,
    num_inference_steps=9,  # This actually results in 8 DiT forwards
    guidance_scale=0.0,     # Guidance should be 0 for the Turbo models
    generator=torch.Generator("cuda").manual_seed(42),
).images[0]

image.save("example.png")

🔬 Decoupled-DMD：Z-Image背后的加速魔法

Decoupled-DMD是赋能8步Z-Image模型的核心少步蒸馏算法。

我们在Decoupled-DMD中的核心见解是，现有DMD（分布匹配蒸馏）方法的成功源于两个相互独立又协同工作的机制：

CFG增强（CA）：驱动蒸馏过程的主要引擎🚀，这一因素在先前的研究中很大程度上被忽视了。
分布匹配（DM）：更像是一种正则化器⚖️，确保生成输出的稳定性和质量。

通过识别并解耦这两种机制，我们能够对它们进行独立研究和优化。这最终促使我们开发出一种改进的蒸馏流程，显著提升了少步生成的性能。

Decoupled-DMD示意图

🤖 DMDR：融合DMD与强化学习

DMDR背后的核心见解是，在少步模型的后训练阶段，可以将强化学习（RL）与分布匹配蒸馏（DMD）进行协同整合。我们证明：

RL释放DMD的性能🚀
DMD有效正则化RL⚖️

DMDR示意图

⏬ 下载

pip install -U huggingface_hub
HF_XET_HIGH_PERFORMANCE=1 hf download Tongyi-MAI/Z-Image-Turbo

📜 引用说明

如果您觉得我们的研究成果对您的研究有所帮助，请考虑引用：

@article{team2025zimage,
  title={Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer},
  author={Z-Image Team},
  journal={arXiv preprint arXiv:2511.22699},
  year={2025}
}

@article{liu2025decoupled,
  title={Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield},
  author={Dongyang Liu and Peng Gao and David Liu and Ruoyi Du and Zhen Li and Qilong Wu and Xin Jin and Sihan Cao and Shifeng Zhang and Hongsheng Li and Steven Hoi},
  journal={arXiv preprint arXiv:2511.22677},
  year={2025}
}

@article{jiang2025distribution,
  title={Distribution Matching Distillation Meets Reinforcement Learning},
  author={Jiang, Dengyang and Liu, Dongyang and Wang, Zanyi and Wu, Qilong and Jin, Xin and Liu, David and Li, Zhen and Wang, Mengmeng and Gao, Peng and Yang, Harry},
  journal={arXiv preprint arXiv:2511.13649},
  year={2025}
}

⚡️- Image基于单流扩散Transformer的高效图像生成基础模型

✨ Z-Image

📥 模型库

🖼️ 效果展示

🏗️ 模型架构

📈 性能表现

🚀 快速开始

🔬 Decoupled-DMD：Z-Image背后的加速魔法

🤖 DMDR：融合DMD与强化学习

⏬ 下载

📜 引用说明

⚡️- Image基于单流扩散Transformer的高效图像生成基础模型

✨ Z-Image

📥 模型库

🖼️ 效果展示

🏗️ 模型架构

📈 性能表现

🚀 快速开始

🔬 Decoupled-DMD：Z-Image背后的加速魔法

🤖 DMDR：融合DMD与强化学习

⏬ 下载

📜 引用说明

⚡️- Image
_{^{基于单流扩散Transformer的高效图像生成基础模型}}

⚡️- Image
_{^{基于单流扩散Transformer的高效图像生成基础模型}}