joytag:可用于diffusion模型训练等场景，为手绘、摄影等多种图像生成独立标签预测。基于ViT-B/16架构，采用Danbooru标记体系，支持5000+标签，0.4阈值下F1分数达0.578。【此简介由AI生成】

JoyTag是基于ViT-B/16架构的AI视觉模型，专用于图像多标签分类。采用Danbooru标记体系，支持5000多个标签，适用于手绘和摄影等多种图像类型。模型在0.4阈值下F1分数达0.578，能为每张图像生成独立标签预测。可用于diffusion模型训练等多种应用场景。

快速信息架构：ViT-B/16 分辨率：448x448x3 参数：91.5M 输出：多标签分类标签：5000+ 训练数据集：Danbooru 2021 + 辅助数据集训练时间：6.6亿样本 F1分数：0.578 @ 0.4阈值

目标大多数公共视觉模型在训练数据集上进行了严格的过滤。这意味着当今的基础视觉模型在基本层面上对广泛的概念表现较弱。这限制了表达自由、包容性和多样性。它还限制了机器学习模型对我们世界的基本理解。JoyTag团队认为，人类用户应该有自由表达自己的权利，不应受到任意和反复无常的内容过滤歧视。JoyTag团队还认为，机器学习模型应该对世界有广泛、深入和包容的理解。这并不排除使用后训练对齐来减少模型中的偏见，但确实排除了使用会减少模型理解世界能力或用户表达能力的过滤或对齐。

JoyTag模型当前的JoyTag模型是在Danbooru 2021数据集和一组手动标记的图像的组合上训练的，以扩展模型在danbooru领域之外的泛化能力。使用Danbooru数据集作为主要数据源是因为其规模（超过400万张人工标记的图像）、质量和标签的多样性。Danbooru使用的标记系统范围广泛且定义明确。然而，Danbooru数据集在内容多样性方面有限；它主要关注动漫/漫画风格的艺术。例如，数据集中只有0.3%是摄影图像。为了解决这个问题，JoyTag团队手动标记了一小部分来自互联网的图像，重点关注主要数据集中未很好表示的照片和其他内容。

最新的模型版本在整个数据集（包括照片）上实现了0.578的F1分数。在对训练或验证过程中未见过的图像进行手动测试时，该模型表现一致，证明了其良好的泛化能力。

JoyTag模型基于ViT架构，带有CNN干和GAP头。

训练详情批量大小：4096 LAMB优化器 Adam Beta：(0.9, 0.999) Adam Epsilon：1e-6 权重衰减：0.05 TF32 FP16混合精度梯度范数裁剪：1.0 简单增强学习率：0.004 余弦衰减无预热无mixup 无标签平滑 Focal loss，gamma=2.0 以224x224的分辨率训练2.2亿样本，然后以448x448的分辨率重新启动训练4.4亿样本。

JoyTag模型基于ViT架构，带有CNN干和GAP头。