S
SeeSee21/Z-Anime
模型介绍文件和版本分析
下载使用量0

🎌 Z-Anime | 基于 Z-Image Base 的完整动漫风格微调模型

Z-Anime

全量微调 • 丰富美学表现 • 强大多样性 • 完整负面提示支持
BF16 & FP8 & GGUF & AIO 格式 • 自然语言提示词 • 8GB 显存支持


🖼️ 预览图册

Z-Anime preview 1Z-Anime preview 2Z-Anime preview 3
Z-Anime preview 4Z-Anime preview 5Z-Anime preview 6
Z-Anime preview 7Z-Anime preview 8Z-Anime preview 9

✨ 什么是 Z-Anime?

Z-Anime 是对阿里巴巴 Z-Image Base 架构的全量微调模型——并非 LoRA 合并,而是从头构建的专注于动漫风格生成的完整模型系列。

基于 S3-DiT(单流扩散Transformer,60亿参数),Z-Anime 继承了 Z-Image Base 的强大基础:丰富的多样性、出色的可控性、完整的负面提示支持以及极高的微调潜力——现已专门适配动漫风格生成。

本仓库包含完整的 Z-Anime 模型系列:

变体核心特点适用场景
🎌 Z-Anime Base最高画质最终渲染、完全控制
⚡ Z-Anime Distill-8-Step速度与质量平衡日常生成
🚀 Z-Anime Distill-4-Step极致速度快速迭代、批量生成
📦 GGUF Variants低内存占用低显存/CPU/AMD 友好型工作流
📦 AIO Variants单文件便捷性简易 ComfyUI 设置
🐍 Diffusers Folder支持 from_pretrained()Python 流水线、进一步微调

🎯 核心特性

  • ✅ 基于 Z-Image Base 的完整微调 — 并非 LoRA 模型合并
  • ✅ 丰富的动漫美学风格,风格多样性强
  • ✅ 自然语言提示词 — 更适合描述性提示词,而非标签列表
  • ✅ 角色、姿势、构图和布局的高度多样性
  • ✅ 支持 LoRA 训练 — 为进一步微调提供坚实基础
  • ✅ 部分支持 NSFW 内容
  • ✅ 兼容 8GB 显存
  • ✅ 提供 GGUF 格式变体
  • ✅ 提供 AIO 格式变体(基础版、4步版、8步版)

🗺️ Z-Anime 路线图

✅ 已发布内容

🎌 Z-Anime Base

基于 Z-Image Base 的完整微调 — BF16 和 FP8 格式

⚡ Z-Anime Distill-8-Step

BF16 和 FP8 格式 — 8 步快速生成动漫,CFG 1.0

🚀 Z-Anime Distill-4-Step

BF16 和 FP8 格式 — 4 步超快速生成动漫,CFG 1.0

📦 GGUF 格式变体

适用于低显存、CPU 推理和AMD 友好型工作流。

  • Z-Anime-Base-Q8_0 — Q8_0 量化(约 6.73 GB)
  • Z-Anime-Base-Q4_K_S — Q4_K_S 量化(约 4.2 GB)

📦 AIO 格式变体

一体化检查点,将图像模型 + VAE + 文本编码器集成到单个文件中。
提供基础版、Distill-4-Step 和 Distill-8-Step 版本 — 每个版本均包含 BF16 和 FP8 格式。

🧩 VAE 和文本编码器

本仓库还包含运行标准(非 AIO)变体所需的VAE(ae.safetensors)和文本编码器(qwen_3_4b.safetensors)。

🐍 Diffusers 文件夹

包含完整的Diffusers 格式文件夹(diffusers/)— 可直接与 ZImagePipeline.from_pretrained() 兼容,供希望在 ComfyUI 外运行推理或使用 Z-Anime 作为进一步微调起点的 Python 用户使用。

更多更新即将推出 — 关注以获取通知!🎌


📦 版本概览

🟢 BF16(约 12GB)

最高精度。BFloat16 格式,质量损失极小。最适合最终渲染、精细工作和 LoRA 训练。

🟡 FP8(约 6GB)

推荐大多数用户使用。文件更小,下载更快,质量出色,与 BF16 相比仅有轻微性能折损。

🔵 GGUF

针对轻量级推理设置进行了优化,尤其适用于低显存、CPU 推理或其他替代后端。

🟣 AIO

一体化检查点,将图像模型 + 文本编码器 + VAE 集成到单个文件中,实现最简单的设置。适用于 Base、Distill-4-Step 和 Distill-8-Step。


🎌 Z-Anime Base

Z-Anime 系列的基础版本。

全面微调版本,具有最高质量上限、最广泛的创作范围以及完整的负面提示支持。

推荐设置

steps: 28-50
cfg: 3.0-5.0   # up to 9.0 possible
sampler: euler_ancestral
scheduler: beta
negative_prompt: strongly recommended

CFG 指南

  • 3.0–5.0 → 平衡质量与创意的理想区间
  • 5.0–7.0 → 更严格遵循提示词
  • 7.0–9.0 → 控制力最大化,但需注意过度饱和问题
  • 9.0 以上 → 不推荐

负面提示词对 Z-Anime Base 完全有效,强烈建议使用。


⚡ Z-Anime Distill-8-Step

本系列的理想之选。

基于 Z-Anime Base 提炼而成,此版本仅需 8 步即可生成出色的动漫效果,同时保留大部分画质。

推荐设置

steps: 8
cfg: 1.0   # max ~1.5
sampler: euler_ancestral
scheduler: beta
negative_prompt: limited effect

CFG 指南

  • CFG 1.0 效果最佳
  • 可小幅提升至 1.3–1.5
  • 切勿超过 1.5——可能会出现伪影

在此蒸馏级别下,负面提示的效果有限。如果您的工作流程包含ConditioningZeroOut,建议优先使用该功能,而非大量负面提示。


🚀 Z-Anime Distill-4-Step

速度最快的 Z-Anime 变体。

专为实现最大吞吐量而构建——非常适合快速原型制作、快速批量生成以及注重速度的工作流程。

推荐设置

steps: 4
cfg: 1.0   # max ~1.5
sampler: euler_ancestral
scheduler: beta
negative_prompt: limited effect

四步流程提示

  • 保持 CFG 1.0 以获得最稳定的结果
  • 将最重要的视觉细节 放在提示词的开头
  • 可选用像 hires fix 或 SeedVR2 这类放大工具来恢复精细细节

📐 分辨率指南

使用场景分辨率
肖像/角色艺术832 × 1216
风景/场景/背景1216 × 832
正方形/通用用途1024 × 1024
竖版/全身/壁纸768 × 1344
电影感/宽幅场景1920 × 1088
细节丰富的肖像1024 × 1536

支持范围: 约 512 × 512 至 2048 × 2048,任意宽高比。
所有主要变体均设计为可在 8GB VRAM 上运行。


💡 提示词指南

自然语言效果最佳——而非标签列表。

✅ 良好示例

A young anime girl with long silver hair and golden eyes, wearing a traditional shrine maiden outfit with white haori and red hakama. She stands in a sunlit bamboo forest, cherry blossoms falling softly around her. Warm afternoon light filtering through the trees, detailed fabric shading, expressive face, calm serene expression, high quality anime illustration with fine line work.

❌ 避免

anime girl, silver hair, shrine maiden, bamboo, cherry blossom, warm light

角色肖像

Detailed anime portrait of [character], soft rim lighting, expressive eyes with detailed reflections, fine hair strands, clean linework, professional anime illustration quality.

动作场景

Dynamic anime [scene], dramatic angle, motion energy, speed lines, particle effects, cinematic composition, detailed shading, high quality anime art.

背景与场景

Anime [location] at [time of day], [lighting], [atmosphere], beautiful background art, wallpaper quality, highly detailed environment.

🔧 安装

步骤 1 — 下载所需版本

请从以下选项中选择:

  • 标准模型/精简模型,提供 BF16 或 FP8 格式(包含 VAE 和文本编码器)
  • GGUF 变体,适用于低显存/CPU/AMD 友好型推理(包含 VAE 和文本编码器)
  • AIO 变体,单文件便捷版(无需额外 VAE/文本编码器)

步骤 2 — 放置文件

标准 BF16 / FP8 模型

ComfyUI/models/diffusion_models/
├── z-anime-base-bf16.safetensors
├── z-anime-base-fp8.safetensors
├── z-anime-distill-8step-bf16.safetensors
├── z-anime-distill-8step-fp8.safetensors
├── z-anime-distill-4step-bf16.safetensors
└── z-anime-distill-4step-fp8.safetensors

GGUF 变体

ComfyUI/models/unet/
├── z-anime-base-q8_0.gguf
└── z-anime-base-q4_k_s.gguf

文本编码器

包含两个文本编码器 — 选择其中一个:

ComfyUI/models/clip/
└── qwen_3_4b-bf16.safetensors          # default (Z-Image standard, BF16)
   or
└── qwen_3_4b-fp8.safetensors           # default (Z-Image standard, FP8)
   or
└── qwen_3_4b-engineer-v4-bf16.safetensors   # alternative (Engineer V4, BF16)
   or
└── qwen_3_4b-engineer-v4-fp8.safetensors    # alternative (Engineer V4, FP8)
  • 默认版(qwen_3_4b-*)——标准 Z-Image 文本编码器,重新打包为单个 .safetensors 文件(BF16 + FP8)。这是模型训练所基于的版本。
  • Engineer V4 版(qwen_3_4b-engineer-v4-*)——由 BennyDaBall 提供的 Z-Image 文本编码器的另一种完整微调版本,可直接替换使用。通常在相同种子下能产生更多样化的输出。原始代码库详见下方“致谢”部分。

VAE

ComfyUI/models/vae/
└── ae.safetensors

AIO 变体

对于 AIO 版本,您只需单个检查点文件即可——无需额外的 VAE 或文本编码器:

ComfyUI/models/checkpoints/
├── z-anime-base-aio-bf16.safetensors
├── z-anime-base-aio-fp8.safetensors
├── z-anime-distill-8step-aio-bf16.safetensors
├── z-anime-distill-8step-aio-fp8.safetensors
├── z-anime-distill-4step-aio-bf16.safetensors
└── z-anime-distill-4step-aio-fp8.safetensors

步骤 3 — 在 ComfyUI 中加载

对于标准 BF16 / FP8 版本

使用:

  • Load Diffusion Model 加载模型文件
  • CLIP Loader 加载文本编码器
  • VAE Loader 加载 VAE

对于 GGUF 版本

  • 从 models/unet/ 文件夹加载 GGUF model
  • 使用与上述相同的 CLIP 和 VAE 文件

对于 AIO 版本

使用标准的 Checkpoint Loader — 无需额外加载 CLIP 或 VAE。


📦 自定义节点

  • rgthree-comfy
  • ComfyUI-Lora-Manager
  • ComfyUI-GGUF(仅适用于 GGUF 变体)
  • ComfyUI-SeedVR2_VideoUpscaler(可选,仅用于 SeedVR2 upscale)

🐍 使用 Diffusers 文件夹

对于 Python 用户,完整的 Diffusers 格式文件夹包含在 diffusers/ 目录下,可使用 subfolder 参数直接加载:

import torch
from diffusers import ZImagePipeline

pipe = ZImagePipeline.from_pretrained(
    "SeeSee21/Z-Anime",
    subfolder="diffusers",
    torch_dtype=torch.bfloat16,
).to("cuda")

image = pipe(
    prompt="A young anime girl with long silver hair and golden eyes, "
           "shrine maiden outfit, sunlit bamboo forest, cherry blossoms, "
           "professional anime illustration, fine line work.",
    num_inference_steps=40,
    guidance_scale=4.0,
).images[0]

image.save("z-anime-output.png")

这种格式也是使用 OneTrainer、diffusers 或 kohya-ss 等框架进行进一步微调(LoRA 或全量微调)的清晰起点。


🧩 官方工作流

Z-Anime Workflow

我们在 workflows/Z-Anime-Workflow-v1.json 中提供了一个即用型 ComfyUI 工作流,支持所有变体(Base / Distill-8 / Distill-4,BF16 / FP8 / GGUF / AIO)。

该工作流包含:

  • 📦 模型切换(Diffusion / GGUF / AIO 加载器 — 一次启用一个)
  • 📖 可选的 LoRA 加载器
  • ✍️ 正向 + 反向提示节点(带有默认动漫反向提示)
  • 📐 分辨率预设
  • 🎨 生成 + 🔼 可选的 1.5 倍 upscale 及并排对比
  • 📚 内置 MarkdownNote 指南,包含各变体的设置说明
Z-Anime Workflow overview

📁 仓库结构

Z-Anime/
├── README.md
├── config.json
│
├── diffusion_models/
│   ├── z-anime-base-bf16.safetensors
│   ├── z-anime-base-fp8.safetensors
│   ├── z-anime-distill-8step-bf16.safetensors
│   ├── z-anime-distill-8step-fp8.safetensors
│   ├── z-anime-distill-4step-bf16.safetensors
│   └── z-anime-distill-4step-fp8.safetensors
│
├── gguf/
│   ├── z-anime-base-q8_0.gguf
│   └── z-anime-base-q4_k_s.gguf
│
├── aio/
│   ├── z-anime-base-aio-bf16.safetensors
│   ├── z-anime-base-aio-fp8.safetensors
│   ├── z-anime-distill-8step-aio-bf16.safetensors
│   ├── z-anime-distill-8step-aio-fp8.safetensors
│   ├── z-anime-distill-4step-aio-bf16.safetensors
│   └── z-anime-distill-4step-aio-fp8.safetensors
│
├── text_encoder/
│   ├── qwen_3_4b-bf16.safetensors                  # default
│   ├── qwen_3_4b-fp8.safetensors                   # default
│   ├── qwen_3_4b-engineer-v4-bf16.safetensors      # alternative (BennyDaBall)
│   └── qwen_3_4b-engineer-v4-fp8.safetensors       # alternative (BennyDaBall)
│
├── vae/
│   └── ae.safetensors
│
├── diffusers/
│   ├── model_index.json
│   ├── scheduler/
│   ├── tokenizer/
│   ├── text_encoder/
│   ├── transformer/   (sharded safetensors + index)
│   └── vae/
│
├── images/
│   ├── cover.png
│   ├── workflow-cover.png
│   ├── workflow-overview.png
│   ├── 1.png
│   ├── 2.png
│   ├── 3.png
│   ├── 4.png
│   ├── 5.png
│   ├── 6.png
│   ├── 7.png
│   ├── 8.png
│   └── 9.png
└── workflows/
    └── Z-Anime-Workflow-v1.json

📈 版本历史

v1.0 — 初始发布

  • Z-Anime Base 以 BF16 和 FP8 格式发布
  • Z-Anime Distill-8-Step 以 BF16 和 FP8 格式发布
  • Z-Anime Distill-4-Step 以 BF16 和 FP8 格式发布
  • 新增 GGUF 变体
    • Z-Anime-Base-Q8_0 — Q8_0 量化(约 6.73 GB)
    • Z-Anime-Base-Q4_K_S — Q4_K_S 量化(约 4.2 GB)
  • 新增 AIO 变体 — Base、Distill-4-Step 和 Distill-8-Step(均提供 BF16 和 FP8 格式)
  • 包含 VAE(ae.safetensors)和 文本编码器(qwen_3_4b.safetensors)
  • 针对 euler_ancestral、euler + beta 采样器以及全系列模型的简单实际应用进行了优化

🔗 链接

  • CivitAI 页面: civitai.red/models/2483351
  • 基础模型: Tongyi-MAI/Z-Image
  • 作者: Hugging Face 上的 SeeSee21

🙏 致谢

  • 基础架构: 通义实验室(阿里巴巴)— Z-Image
  • 微调: SeeSee21
  • 许可证: Apache 2.0
  • 架构: S3-DiT(单流扩散Transformer,60亿参数)
  • 基础模型: Tongyi-MAI/Z-Image
  • Engineer V4 文本编码器: BennyDaBall/Qwen3-4b-Z-Image-Engineer-V4 — 采用 SMART 训练进行全量微调,作为可选文本编码器包含在内

❤️ 说明

Z-Anime 是一个专注于动漫领域的实验性模型系列,旨在探索基于 Z-Image Base 进行全量微调在该领域所能达成的效果。

该模型在动漫美学、角色塑造和快速迭代方面已表现出色,未来版本将持续提升多样性、角色处理能力、提示词灵活性和整体质量。

Z-Anime — 依托 Z-Image Base,呈现极致动漫体验。🎌