本文旨在探索计算机视觉领域的大规模模型。作者针对大型视觉模型在训练和应用中存在的三个主要问题展开研究,包括训练不稳定性、预训练与微调之间的分辨率差距以及对有标签数据的依赖。为此,提出了三项主要技术:1)结合余弦注意力的残差后归一化方法,以提升训练稳定性;2)对数间隔连续位置偏置方法,可有效将低分辨率图像预训练的模型迁移至高分辨率输入的下游任务;3)自监督预训练方法 SimMIM,以减少对大量有标签图像的需求。该模型在 4 项代表性视觉任务上刷新了性能记录,包括 ImageNet-V2 图像分类、COCO 目标检测、ADE20K 语义分割以及 Kinetics-400 视频动作分类。[1]
图 1. Swin Transformer V2 的架构 [1]
我们复现的模型在 ImageNet-1K 上的性能如下表所示。
| 模型 | 训练环境 | Top-1 (%) | Top-5 (%) | 参数 (M) | 下载链接 |
|---|---|---|---|---|---|
| swinv2_tiny_window8 | D910x8-G | 81.42 | 95.43 | 28.78 | weights |
有关模型训练和推理的信息,请查看 MindCV GitHub 仓库。
[1] Liu Z, Hu H, Lin Y, et al. Swin transformer v2: Scaling up capacity and resolution[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 12009-12019.