“由‘个人’训练的最佳 SDXL 动漫基础模型。”
加入我们:https://discord.gg/tPBsKDyRR5
|
|
Kohaku XL Delta 是 Kohaku XL 系列的第四个主要版本,它包含 360 万张图像的数据集,采用 LyCORIS 微调技术[1],在消费级硬件上完成训练,并且完全开源。
“base”版本是“训练前”的版本!!!
以下是一个简单的格式,让使用此模型变得轻松便捷:
<1girl/1boy/1other/...>, <character>, <series>, <artists>, <special tags>, <general tags>特殊标签(quality、rating 和 date)实际上属于通用标签的范畴。不过,建议将所有这些标签都放在通用标签之前。
虽然 Kohaku XL Delta 已经能够高保真地掌握少数艺术家的风格,但强烈建议用户混合使用多个艺术家标签来探索新风格,而非尝试复制任何特定艺术家的风格。
所有热度至少为 1000 的 danbooru 标签都应能正常使用。 所有热度至少为 100 的 danbooru 标签,在高权重强调下可能可以使用。
记得移除标签中的所有下划线。(短标签中的下划线无需移除,它们很可能是表情符号标签的一部分。)
质量标签 质量标签是根据每个分级类别内收藏数(fav_count)的百分位排名来分配的,以避免对 nsfw 内容产生偏见(Animagine XL v3 曾遇到此问题),从高到低排列如下:95th、85th、75th、50th、25th 和 10th 百分位。这通过六个阈值划分出七个不同的质量等级。
分级标签
注意:在训练过程中,标记为“explicit”的内容也会被视为“nsfw”的一部分,以确保理解的全面性。
日期标签 日期标签基于图片的上传日期,因为元数据中不包含实际创作日期。 时间段分类如下:
由于训练周期较短,部分标签可能未能被充分学习。通过实验发现,将“强调权重”提高到 1.5 至 2.5 之间仍能产生不错的效果,尤其是对于角色或艺术家标签。 对于 sd-webui 用户,请使用版本 >= 1.8.0 并将强调模式切换为“No norm”,以防止潜在的 NaN 问题。
本模型针对从ARB 1024x1024开始的分辨率进行训练,最小分辨率为256,最大分辨率为4096。这意味着您可以使用标准的SDXL分辨率。不过,建议选择略高于1024x1024的分辨率。为获得更佳效果,也建议应用高分辨率修复(hires-fix)。
有关更多信息,请查看所提供示例图像的元数据。
用于训练本模型的数据集来源于HakuBooru,包含从danbooru2023数据集中筛选出的360万张图像。[2][3]
我们采用了如下筛选流程:从ID 0至2,999,999中选取100万条帖子,从ID 3,000,000至4,999,999中选取100万条帖子,并纳入所有ID 5,000,000之后的帖子,总计410万条帖子。在过滤掉已删除的帖子、黄金账户帖子以及无图像(可能为GIF或MP4)的帖子后,最终数据集包含360万张图像。
筛选过程基本为随机选择,但使用了固定种子以确保可复现性。
进一步处理
Kohaku XL Delta的训练借助了LyCORIS项目以及kohya-ss/sd-scripts中的训练器。[1][4]
基础模型优化 我们的研究表明,在CLIP中训练“token_embedding”和“position_embedding”,或在openCLIP中训练“positional_embedding”,对于中小规模的微调,尤其是在较小的批量大小下,可能并无益处。[5][6]
因此,我们恢复了TE1和TE2模型中原有的标记和位置嵌入。随后,我们通过加权求和(权重=0.5)将恢复的gamma rev2模型和beta7模型进行组合,形成了Kohaku XL Delta的基础模型。
该基础模型被称为“delta-pre2”或“delta base”,它是未经进一步训练的初步版本,其性能介于Kohaku XL gamma rev2和Kohaku XL beta7之间。
算法:LoKr[7] 该模型使用LoKr算法进行训练,触发了全矩阵,并为不同模块设置了2~8的因子。其目的是证明LoRA/LyCORIS在训练基础模型方面的适用性。
原始LoKr文件大小不到800MB,且TE未被冻结。原始LoKr文件也将以“delta-lokr”版本提供。
有关详细设置,请参考LyCORIS配置文件。
其他训练细节
警告:bitsandbytes的0.36.0~0.41.0版本在8位优化器中存在严重缺陷,可能会影响训练,因此务必进行更新。[8]
训练成本 使用双RTX 3090进行DDP训练,在360万图像数据集上完成1个轮次大约需要17至18天。对于等效批量大小为128的每一步,完成时间约为51至51.5秒。
Delta 很可能是 Kohaku XL 的最后一次重大更新,但这并不意味着我会停止对它的优化。当然,我也无法保证这真的是最后一次更新。
我正在考虑再进行几个 epoch 的训练,或者在不久的将来将数据集扩充到 500 万张图片。此外,我还打算尝试使用更大规模的配置来运行 DoKr,进行一些实验性的调整。
(有趣的是,Delta 最初也是一个实验项目,但结果非常好,于是就成为了正式版本!)
AngelBottomless 与 Nyanko7:danbooru2023 数据集[3] Kohya-ss:训练器[4] ChatGPT/GPT4:优化本模型卡片
AI 生成的艺术应当看起来像 AI 作品,而非人类创作。
[1] Shih-Ying Yeh、Yu-Guan Hsieh、Zhidong Gao、Bernard B W Yang、Giyeong Oh 与 Yanmin Gong(2024)。《Navigating Text-To-Image Customization: From LyCORIS Fine-Tuning to Model Evaluation》。发表于《The Twelfth International Conference on Learning Representations》。 https://arxiv.org/abs/2309.14859
[2] HakuBooru - 用于 booru 风格图像平台的文本图像数据集生成器。https://github.com/KohakuBlueleaf/HakuBooru
[3] Danbooru2023:一个大规模众包标注动漫插画数据集。 https://huggingface.co/datasets/nyanko7/danbooru2023
[4] kohya-ss/sd-scripts。 https://github.com/kohya-ss/sd-scripts
[5] Transformers:面向 Pytorch、TensorFlow 和 JAX 的最先进机器学习库。 https://github.com/huggingface/transformers/blob/b647acdb53d251cec126b79e505bac11821d7c93/src/transformers/models/clip/modeling_clip.py#L204-L205
[6] OpenCLIP - CLIP 的开源实现。 https://github.com/mlfoundations/open_clip/blob/73fa7f03a33da53653f61841eb6d69aef161e521/src/open_clip/transformer.py#L598-L604
[7] LyCORIS - Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion(超越传统方法的 Lora,用于 Stable Diffusion 的其他秩适应实现)。 https://github.com/KohakuBlueleaf/LyCORIS/blob/main/docs/Algo-Details.md#lokr
[8] TimDettmers/bitsandbytes - issue 659/152/227/262 - 长期以来,错误的缩进行导致了一些 bug。 https://github.com/TimDettmers/bitsandbytes/issues/659
示例图片将稍后放置于此。 您可以先查看示例文件夹。