全量微调 • 丰富美学表现 • 强大多样性 • 完整负面提示支持
BF16 & FP8 & GGUF & AIO 格式 • 自然语言提示词 • 8GB 显存支持
![]() | ![]() | ![]() |
![]() | ![]() | ![]() |
![]() | ![]() | ![]() |
Z-Anime 是对阿里巴巴 Z-Image Base 架构的全量微调模型——并非 LoRA 合并,而是从头构建的专注于动漫风格生成的完整模型系列。
基于 S3-DiT(单流扩散Transformer,60亿参数),Z-Anime 继承了 Z-Image Base 的强大基础:丰富的多样性、出色的可控性、完整的负面提示支持以及极高的微调潜力——现已专门适配动漫风格生成。
本仓库包含完整的 Z-Anime 模型系列:
| 变体 | 核心特点 | 适用场景 |
|---|---|---|
| 🎌 Z-Anime Base | 最高画质 | 最终渲染、完全控制 |
| ⚡ Z-Anime Distill-8-Step | 速度与质量平衡 | 日常生成 |
| 🚀 Z-Anime Distill-4-Step | 极致速度 | 快速迭代、批量生成 |
| 📦 GGUF Variants | 低内存占用 | 低显存/CPU/AMD 友好型工作流 |
| 📦 AIO Variants | 单文件便捷性 | 简易 ComfyUI 设置 |
| 🐍 Diffusers Folder | 支持 from_pretrained() | Python 流水线、进一步微调 |
基于 Z-Image Base 的完整微调 — BF16 和 FP8 格式
BF16 和 FP8 格式 — 8 步快速生成动漫,CFG 1.0
BF16 和 FP8 格式 — 4 步超快速生成动漫,CFG 1.0
适用于低显存、CPU 推理和AMD 友好型工作流。
一体化检查点,将图像模型 + VAE + 文本编码器集成到单个文件中。
提供基础版、Distill-4-Step 和 Distill-8-Step 版本 — 每个版本均包含 BF16 和 FP8 格式。
本仓库还包含运行标准(非 AIO)变体所需的VAE(ae.safetensors)和文本编码器(qwen_3_4b.safetensors)。
包含完整的Diffusers 格式文件夹(diffusers/)— 可直接与 ZImagePipeline.from_pretrained() 兼容,供希望在 ComfyUI 外运行推理或使用 Z-Anime 作为进一步微调起点的 Python 用户使用。
更多更新即将推出 — 关注以获取通知!🎌
最高精度。BFloat16 格式,质量损失极小。最适合最终渲染、精细工作和 LoRA 训练。
推荐大多数用户使用。文件更小,下载更快,质量出色,与 BF16 相比仅有轻微性能折损。
针对轻量级推理设置进行了优化,尤其适用于低显存、CPU 推理或其他替代后端。
一体化检查点,将图像模型 + 文本编码器 + VAE 集成到单个文件中,实现最简单的设置。适用于 Base、Distill-4-Step 和 Distill-8-Step。
Z-Anime 系列的基础版本。
全面微调版本,具有最高质量上限、最广泛的创作范围以及完整的负面提示支持。
steps: 28-50
cfg: 3.0-5.0 # up to 9.0 possible
sampler: euler_ancestral
scheduler: beta
negative_prompt: strongly recommended负面提示词对 Z-Anime Base 完全有效,强烈建议使用。
本系列的理想之选。
基于 Z-Anime Base 提炼而成,此版本仅需 8 步即可生成出色的动漫效果,同时保留大部分画质。
steps: 8
cfg: 1.0 # max ~1.5
sampler: euler_ancestral
scheduler: beta
negative_prompt: limited effect在此蒸馏级别下,负面提示的效果有限。如果您的工作流程包含ConditioningZeroOut,建议优先使用该功能,而非大量负面提示。
速度最快的 Z-Anime 变体。
专为实现最大吞吐量而构建——非常适合快速原型制作、快速批量生成以及注重速度的工作流程。
steps: 4
cfg: 1.0 # max ~1.5
sampler: euler_ancestral
scheduler: beta
negative_prompt: limited effect| 使用场景 | 分辨率 |
|---|---|
| 肖像/角色艺术 | 832 × 1216 |
| 风景/场景/背景 | 1216 × 832 |
| 正方形/通用用途 | 1024 × 1024 |
| 竖版/全身/壁纸 | 768 × 1344 |
| 电影感/宽幅场景 | 1920 × 1088 |
| 细节丰富的肖像 | 1024 × 1536 |
支持范围: 约 512 × 512 至 2048 × 2048,任意宽高比。
所有主要变体均设计为可在 8GB VRAM 上运行。
自然语言效果最佳——而非标签列表。
A young anime girl with long silver hair and golden eyes, wearing a traditional shrine maiden outfit with white haori and red hakama. She stands in a sunlit bamboo forest, cherry blossoms falling softly around her. Warm afternoon light filtering through the trees, detailed fabric shading, expressive face, calm serene expression, high quality anime illustration with fine line work.anime girl, silver hair, shrine maiden, bamboo, cherry blossom, warm lightDetailed anime portrait of [character], soft rim lighting, expressive eyes with detailed reflections, fine hair strands, clean linework, professional anime illustration quality.Dynamic anime [scene], dramatic angle, motion energy, speed lines, particle effects, cinematic composition, detailed shading, high quality anime art.Anime [location] at [time of day], [lighting], [atmosphere], beautiful background art, wallpaper quality, highly detailed environment.请从以下选项中选择:
ComfyUI/models/diffusion_models/
├── z-anime-base-bf16.safetensors
├── z-anime-base-fp8.safetensors
├── z-anime-distill-8step-bf16.safetensors
├── z-anime-distill-8step-fp8.safetensors
├── z-anime-distill-4step-bf16.safetensors
└── z-anime-distill-4step-fp8.safetensorsComfyUI/models/unet/
├── z-anime-base-q8_0.gguf
└── z-anime-base-q4_k_s.gguf包含两个文本编码器 — 选择其中一个:
ComfyUI/models/clip/
└── qwen_3_4b-bf16.safetensors # default (Z-Image standard, BF16)
or
└── qwen_3_4b-fp8.safetensors # default (Z-Image standard, FP8)
or
└── qwen_3_4b-engineer-v4-bf16.safetensors # alternative (Engineer V4, BF16)
or
└── qwen_3_4b-engineer-v4-fp8.safetensors # alternative (Engineer V4, FP8)qwen_3_4b-*)——标准 Z-Image 文本编码器,重新打包为单个 .safetensors 文件(BF16 + FP8)。这是模型训练所基于的版本。qwen_3_4b-engineer-v4-*)——由 BennyDaBall 提供的 Z-Image 文本编码器的另一种完整微调版本,可直接替换使用。通常在相同种子下能产生更多样化的输出。原始代码库详见下方“致谢”部分。ComfyUI/models/vae/
└── ae.safetensors对于 AIO 版本,您只需单个检查点文件即可——无需额外的 VAE 或文本编码器:
ComfyUI/models/checkpoints/
├── z-anime-base-aio-bf16.safetensors
├── z-anime-base-aio-fp8.safetensors
├── z-anime-distill-8step-aio-bf16.safetensors
├── z-anime-distill-8step-aio-fp8.safetensors
├── z-anime-distill-4step-aio-bf16.safetensors
└── z-anime-distill-4step-aio-fp8.safetensors使用:
models/unet/ 文件夹加载 GGUF model使用标准的 Checkpoint Loader — 无需额外加载 CLIP 或 VAE。
对于 Python 用户,完整的 Diffusers 格式文件夹包含在 diffusers/ 目录下,可使用 subfolder 参数直接加载:
import torch
from diffusers import ZImagePipeline
pipe = ZImagePipeline.from_pretrained(
"SeeSee21/Z-Anime",
subfolder="diffusers",
torch_dtype=torch.bfloat16,
).to("cuda")
image = pipe(
prompt="A young anime girl with long silver hair and golden eyes, "
"shrine maiden outfit, sunlit bamboo forest, cherry blossoms, "
"professional anime illustration, fine line work.",
num_inference_steps=40,
guidance_scale=4.0,
).images[0]
image.save("z-anime-output.png")这种格式也是使用 OneTrainer、diffusers 或 kohya-ss 等框架进行进一步微调(LoRA 或全量微调)的清晰起点。
我们在 workflows/Z-Anime-Workflow-v1.json 中提供了一个即用型 ComfyUI 工作流,支持所有变体(Base / Distill-8 / Distill-4,BF16 / FP8 / GGUF / AIO)。
该工作流包含:
Z-Anime/
├── README.md
├── config.json
│
├── diffusion_models/
│ ├── z-anime-base-bf16.safetensors
│ ├── z-anime-base-fp8.safetensors
│ ├── z-anime-distill-8step-bf16.safetensors
│ ├── z-anime-distill-8step-fp8.safetensors
│ ├── z-anime-distill-4step-bf16.safetensors
│ └── z-anime-distill-4step-fp8.safetensors
│
├── gguf/
│ ├── z-anime-base-q8_0.gguf
│ └── z-anime-base-q4_k_s.gguf
│
├── aio/
│ ├── z-anime-base-aio-bf16.safetensors
│ ├── z-anime-base-aio-fp8.safetensors
│ ├── z-anime-distill-8step-aio-bf16.safetensors
│ ├── z-anime-distill-8step-aio-fp8.safetensors
│ ├── z-anime-distill-4step-aio-bf16.safetensors
│ └── z-anime-distill-4step-aio-fp8.safetensors
│
├── text_encoder/
│ ├── qwen_3_4b-bf16.safetensors # default
│ ├── qwen_3_4b-fp8.safetensors # default
│ ├── qwen_3_4b-engineer-v4-bf16.safetensors # alternative (BennyDaBall)
│ └── qwen_3_4b-engineer-v4-fp8.safetensors # alternative (BennyDaBall)
│
├── vae/
│ └── ae.safetensors
│
├── diffusers/
│ ├── model_index.json
│ ├── scheduler/
│ ├── tokenizer/
│ ├── text_encoder/
│ ├── transformer/ (sharded safetensors + index)
│ └── vae/
│
├── images/
│ ├── cover.png
│ ├── workflow-cover.png
│ ├── workflow-overview.png
│ ├── 1.png
│ ├── 2.png
│ ├── 3.png
│ ├── 4.png
│ ├── 5.png
│ ├── 6.png
│ ├── 7.png
│ ├── 8.png
│ └── 9.png
└── workflows/
└── Z-Anime-Workflow-v1.jsonae.safetensors)和 文本编码器(qwen_3_4b.safetensors)Tongyi-MAI/Z-ImageBennyDaBall/Qwen3-4b-Z-Image-Engineer-V4 — 采用 SMART 训练进行全量微调,作为可选文本编码器包含在内Z-Anime 是一个专注于动漫领域的实验性模型系列,旨在探索基于 Z-Image Base 进行全量微调在该领域所能达成的效果。
该模型在动漫美学、角色塑造和快速迭代方面已表现出色,未来版本将持续提升多样性、角色处理能力、提示词灵活性和整体质量。
Z-Anime — 依托 Z-Image Base,呈现极致动漫体验。🎌