HuggingFace镜像/Animagine_XL_V3.1
模型介绍文件和版本分析
下载使用量0

Animagine XL 3.1

sample1
sample4
sample2
sample3
sample1
sample4

Animagine XL 3.1 是 Animagine XL V3 系列的一次更新,对先前版本 Animagine XL 3.0 进行了增强。这款开源的动漫主题文本到图像模型经过改进,能够生成更高质量的动漫风格图像。它涵盖了更多知名动漫系列的角色,优化了数据集,并新增了美学标签以提升图像创作效果。基于 Stable Diffusion XL 构建,Animagine XL 3.1 旨在通过生成精准且细节丰富的动漫角色形象,为动漫爱好者、艺术家和内容创作者提供有价值的资源。

模型详情

  • 开发方:Cagliostro Research Lab
  • 合作方:SeaArt.ai
  • 模型类型:基于扩散技术的文本到图像生成模型
  • 模型描述:Animagine XL 3.1 能够根据文本提示生成高质量动漫图像。它在手部解剖结构、概念理解以及提示词解读方面均有显著提升。
  • 许可证:Fair AI Public License 1.0-SD
  • 微调基础模型:Animagine XL 3.0

Gradio 与 Colab 集成

可在 Huggingface Spaces 中尝试由 Gradio 驱动的演示:在 Spaces 中打开

或在 Google Colab 中打开演示:在 Colab 中打开

🧨 Diffusers 安装

首先安装所需库:

pip install diffusers transformers accelerate safetensors --upgrade

然后使用以下示例代码运行图像生成:

import torch
from diffusers import DiffusionPipeline

pipe = DiffusionPipeline.from_pretrained(
    "cagliostrolab/animagine-xl-3.1", 
    torch_dtype=torch.float16, 
    use_safetensors=True, 
)
pipe.to('cuda')

prompt = "1girl, souryuu asuka langley, neon genesis evangelion, solo, upper body, v, smile, looking at viewer, outdoors, night"
negative_prompt = "nsfw, lowres, (bad), text, error, fewer, extra, missing, worst quality, jpeg artifacts, low quality, watermark, unfinished, displeasing, oldest, early, chromatic aberration, signature, extra digits, artistic error, username, scan, [abstract]"

image = pipe(
    prompt, 
    negative_prompt=negative_prompt,
    width=832,
    height=1216, 
    guidance_scale=7,
    num_inference_steps=28
).images[0]

image.save("./output/asuka_test.png")

使用指南

标签排序

为获得最佳效果,建议遵循结构化提示模板,因为我们的模型是按照此方式进行训练的:

1girl/1boy, character name, from what series, everything else in any order.

特殊标签

Animagine XL 3.1 采用特殊标签来引导生成结果在质量、分级、创作日期和美学方面的表现。虽然模型在不使用这些标签的情况下也能生成图像,但使用它们有助于获得更优的结果。

质量修饰标签

质量标签现在同时考虑分数和发布后的评分,以确保质量分布的均衡性。我们优化了标签名称以提高清晰度,例如将“high quality”调整为“great quality”。

质量修饰标签分数标准
masterpiece> 95%
best quality> 85% & ≤ 95%
great quality> 75% & ≤ 85%
good quality> 50% & ≤ 75%
normal quality> 25% & ≤ 50%
low quality> 10% & ≤ 25%
worst quality≤ 10%

分级修饰标签

我们还简化了分级标签,以追求简洁和清晰,并旨在建立可跨不同模型应用的通用规则。例如,标签“rating: general”现已简化为“general”,“rating: sensitive”已精简为“sensitive”。

分级修饰标签分级标准
safeGeneral
sensitiveSensitive
nsfwQuestionable
explicit, nsfwExplicit

年份修饰标签

我们还重新定义了年份范围,以更准确地引导结果呈现特定的现代或复古动漫艺术风格。此更新简化了范围,侧重于与当前和过去时代的相关性。

年份标签年份范围
newest2021 至 2024
recent2018 至 2020
mid2015 至 2017
early2011 至 2014
oldest2005 至 2010

美学标签

我们增强了标签系统,引入美学标签以根据视觉吸引力优化内容分类。这些标签源自专门的 ViT(视觉Transformer)图像分类模型的评估,该模型经过动漫数据的专门训练。为此,我们使用了模型 shadowlilac/aesthetic-shadow-v2,该模型在内容进行训练前评估其美学价值。这确保了每段内容不仅相关准确,而且具有视觉吸引力。

美学标签分数范围
very aesthetic> 0.71
aesthetic> 0.45 & < 0.71
displeasing> 0.27 & < 0.45
very displeasing≤ 0.27

推荐设置

为引导模型生成具有高审美价值的图像,请使用以下负面提示词:

nsfw, lowres, (bad), text, error, fewer, extra, missing, worst quality, jpeg artifacts, low quality, watermark, unfinished, displeasing, oldest, early, chromatic aberration, signature, extra digits, artistic error, username, scan, [abstract]

为获得更高质量的结果,请在提示词前添加:

masterpiece, best quality, very aesthetic, absurdres

建议使用较低的无分类器引导(CFG Scale),数值在5-7左右,采样步数低于30,并使用Euler Ancestral(Euler a)作为采样器。

多宽高比分辨率

本模型支持生成以下尺寸的图像:

尺寸宽高比
1024 x 10241:1 正方形
1152 x 8969:7
896 x 11527:9
1216 x 83219:13
832 x 121613:19
1344 x 7687:4 横向
768 x 13444:7 纵向
1536 x 64012:5 横向
640 x 15365:12 纵向

训练与超参数

Animagine XL 3.1 在 2 块 A100 80GB GPU 上训练了约 15 天,总 GPU 时长超过 350 小时。训练过程分为三个阶段:

  • 预训练:使用包含 87 万张有序且带标签的图像的丰富数据集,以增加 Animagine XL 3.0 的模型知识。
    • 微调 - 第一阶段:使用经过标记和精选的美学数据集,对预训练后受损的 U-Net 进行修复。
    • 微调 - 第二阶段:使用经过标记和精选的美学数据集,优化模型的艺术风格,并改进手部和解剖结构的渲染效果。

超参数

阶段轮次UNet 学习率训练文本编码器批大小噪声偏移优化器学习率调度器梯度累积步数GPU 数量
预训练101e-5是16N/AAdamW余弦退火带热重启32
微调第一阶段102e-6否480.0357Adafactor带预热的恒定学习率11
微调第二阶段151e-6否480.0357Adafactor带预热的恒定学习率11

模型对比(仅预训练阶段)

训练配置

配置项Animagine XL 3.0Animagine XL 3.1
GPU2 x A100 80G2 x A100 80G
数据集1,271,990873,504
Shuffle SeparatorTrueTrue
训练轮次1010
学习率7.5e-61e-5
文本编码器学习率3.75e-61e-5
有效批处理大小48 x 1 x 216 x 3 x 2
优化器AdafactorAdamW
优化器参数缩放参数:False,相对步长:False,预热初始化:False权重衰减:0.1,动量参数:(0.9, 0.99)
学习率调度器带预热的恒定学习率余弦退火带热重启
学习率调度器参数预热步数:100周期数:10,最小学习率:1e-6,学习率衰减:0.9,首个周期步数:9,099

源代码和训练配置可在此处获取:https://github.com/cagliostrolab/sd-scripts/tree/main/notebook

致谢

Animagine XL 3.1 的开发与发布离不开以下个人和组织的宝贵贡献与支持:

  • SeaArt.ai:我们的合作方与赞助商。
  • Shadow Lilac:提供了审美分类模型 aesthetic-shadow-v2。
  • Derrian Distro:提供了自定义学习率调度器,改编自 LoRA Easy Training Scripts。
  • Kohya SS:提供了全面的训练脚本。
  • Cagliostrolab 团队成员:致力于模型训练、项目管理和数据整理。
  • 早期测试者:提供了宝贵的反馈和质量保障。
  • NovelAI:其创新的审美标签方法为我们的实现提供了灵感。
  • KBlueLeaf:在平衡质量标签分布和基于 Hakubooru Metainfo 管理标签方面提供了灵感。

感谢所有支持者和专家,是你们共同推动了动漫风格图像生成的边界。

协作者

  • Linaqruf
  • ItsMeBell
  • Asahina2K
  • DamarJati
  • Zwicky18
  • Scipius2121
  • Raelina
  • Kayfahaarukku
  • Kriz

局限性

尽管Animagine XL 3.1在动漫风格图像生成方面取得了显著进步,但仍需了解其存在的局限性:

  1. 专注动漫领域:本模型专为生成动漫风格图像而设计,不适用于创建写实照片。
  2. 提示词复杂度:对于期望通过简短或简单提示词获得高质量结果的用户,本模型可能不太适用。训练重点在于概念理解而非美学优化,因此可能需要更详细、具体的提示词才能达到理想效果。
  3. 提示词格式:Animagine XL 3.1针对Danbooru风格标签进行了优化,而非自然语言提示词。为获得最佳效果,建议用户使用适当的标签和语法来格式化提示词。
  4. 人体结构与手部绘制:尽管在人体结构和手部绘制方面已有所改进,但在这些区域,模型仍可能出现生成效果欠佳的情况。
  5. 数据集规模:用于训练Animagine XL 3.1的数据集包含约87万张图像。与上一版本的数据集(120万张)相结合,总训练数据量约为210万张图像。虽然数量可观,但对于一款“终极”动漫模型而言,此数据集规模在范围上仍可能被认为是有限的。
  6. NSFW内容:Animagine XL 3.1旨在生成更为均衡的NSFW内容。但需要注意的是,即使未明确提示,模型仍可能生成NSFW结果。

通过明确这些局限性,我们旨在保持透明度,并为Animagine XL 3.1的用户设定合理期望。尽管存在这些限制,我们相信该模型仍是动漫风格图像生成领域的重要进步,为艺术家、设计师和爱好者提供了强大的工具。

许可协议

Animagine XL 3.1 基于 Animagine XL 3.0 开发,采用 Fair AI Public License 1.0-SD 许可协议,该协议与 Stable Diffusion 模型的许可协议兼容。核心要点如下:

  1. 修改共享:若您对 Animagine XL 3.1 进行修改,必须同时分享您的修改内容和原始许可协议。
  2. 源代码可访问性:如果您的修改版本可通过网络访问,需提供获取源代码的途径(如下载链接)。此要求同样适用于衍生模型。
  3. 分发条款:任何分发行为必须基于本许可协议或其他具有类似规则的协议。
  4. 合规性:若出现不合规情况,必须在 30 天内纠正,以避免许可协议终止。这强调了透明度和对开源价值观的遵守。

选择此许可协议旨在保持 Animagine XL 3.1 的开放性和可修改性,与开源社区精神保持一致。它保护贡献者和用户,鼓励建立一个协作、符合道德的开源社区。这确保模型不仅能从社区的集体智慧中受益,也尊重开源开发的自由。

Cagliostro Lab Discord 服务器

Cagliostro Lab 服务器终于对公众开放 https://discord.gg/cqh9tZgbGc

欢迎加入我们的 Discord 服务器