HuggingFace镜像/Fluffyrock-Unbound
模型介绍文件和版本分析
下载使用量0

FluffyRock Unbound v1.1

作者 Project RedRocket 🚀

FluffyRock Unbound 是基于 Fluffyrock Unleashed v1.0 进行的微调模型,其训练数据来源于经过扩充和精选的 e621 数据集,并采用了英伟达实验室 EDM2 的训练改进方案。

本模型可生成详细的性 explicit 内容,不适合未成年人使用。通常情况下,只有在明确提示时,模型才会生成此类内容。

下载

Fluffyrock-Unbound-v1-1.safetensors - 主模型 EMA 检查点。
Fluffyrock-Unbound-v1-1.yaml - A1111 Stable Diffusion WebUI 专用 YAML 文件。请将此文件与模型放置在同一文件夹中。
fluffyrock-unbound-tag-strength-v1.1.csv - 推荐的标签权重文件,代表模型中各个概念的强度。(原始计数,元数据)
boring_e621_unbound_lite.safetensors - Boring-E621 风格嵌入,用于提升生成质量。请在负面提示词中使用。(增强版 Plus 版本)

提示词指南

本模型基于 e621 标签训练,标签之间用逗号分隔,且不含下划线。艺术家名称前已添加“by”。使用末尾逗号。
示例提示词:solo, anthro, female, wolf, breasts, clothed, standing, outside, full-length portrait, (detailed fur,) by artist name,

  • 部分标签已进行缩写以节省 tokens,因此请尽量使用标签补全文件。
  • 模型中已移除大部分紫色“版权标签”,因此绝对不要使用类似 dreamworks, how to train your dragon, toothless 的提示词,而应直接使用 toothless。
  • 稀有标签未包含在自动补全文件中,以免造成误导。

Automatic1111 Stable Diffusion WebUI 使用说明

将模型及对应的 .yaml 文件放入 models/Stable-diffusion/ 文件夹。若没有 .yaml 文件,模型将无法正常工作。

你很可能需要 CFG Rescale 扩展:https://github.com/Seshelle/CFG_Rescale_webui 。设置为 0.7 似乎适用于几乎所有情况。

为获得理想效果,请前往“设置”->“采样器参数”,选择“Zero Terminal SNR”作为“采样噪声调度”,如果使用 Karras 调度,将 sigma max 设置为 160。

ComfyUI 使用说明

将模型检查点放入 models/checkpoints 文件夹。可选的 Boring-E621 嵌入文件放入 models/embeddings。
该模型采用 zero-terminal-SNR 并使用 V-prediction。请使用 ModelSamplingDiscrete 节点进行正确配置。

如果使用 KarrasScheduler 和 zsnr,请将 sigma max 设置为 160。不要将 zsnr 与默认的 KSampler karras 调度一起使用,因为 sigma max 将无法正确设置。

质量嵌入

上方提供了实验性文本反转嵌入,其理念与 Boring Embeddings 类似。 它们旨在提高图像质量,同时不会大幅改变图像内容。它们应作为负面提示词的一部分使用,不过在正面提示词中使用也可能会有有趣的效果。

  • “lite”版本包含 6 个 token,初始化为 by <|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|>,非常接近“空白状态”。
  • “plus”版本基于相同数据集训练,包含 8 个 token,初始化为 100 位低评分艺术家的平均向量。
  • 目前,推荐使用“lite”版本。

训练详情

  • 自适应时间步权重:借鉴EDM2论文中的类似方法,根据每个时间步上MSE损失的同方差不确定性对时间步进行加权,从而均衡各时间步的贡献。损失权重还与分辨率相关联,以均衡各分辨率组的贡献。这使得模型现在在高频和低频细节方面都表现出色,并且不再对模糊背景有明显偏向。
  • EMA权重采用EDM2论文中描述的方法事后组装。发布的检查点使用0.225的EMA长度sigma值。
  • 对CLIP标记嵌入中额外的完全空块应用了交叉注意力掩码,使模型在处理短提示时表现更好。此前,如果图像的标题较短,其输入方式类似于在A1111中为提示添加BREAK BREAK BREAK,这导致模型依赖这些额外块,并且在输入225个标记时能生成更好的图像。现在模型不再依赖于此。
  • 优化器替换为无调度AdamW,并在偏置层中关闭了权重衰减,这极大地稳定了训练过程。
  • 从高分辨率桶中移除了低分辨率图像。这导致最高分辨率组中约1/3的图像被移除。根据我们的测试,这对高分辨率生成质量没有负面影响,并且应该能改善高分辨率图像的细节。
  • 用于训练输入的分词器设置为从不将标签从中间拆分。如果一个标签会到达块的边缘,它现在会被移至下一个块。这与大多数前端的行为类似。
  • 现在对隐含标签应用随机丢弃。此更改的总体效果应该是,更具体的标签将更有效且更少依赖隐含标签,而更通用的标签仍将存在并可用。

数据集变更

  • 对 E621 标签进行了大规模调整,移除了多个无用标签并对其他标签进行了重命名。我们纳入了代表当前数据集状态的新标签文件。
  • 对数据集进行了筛选,以移除先前数据集中发现的有害内容,以及之前被发现会对相邻概念的生成质量产生负面影响的内容。