ConvNeXt V2（微型模型）

ConvNeXt V2 模型使用 FCMAE 框架进行预训练，并在分辨率为 224x224 的 ImageNet-1K 数据集上进行微调。该模型由 Woo 等人在论文 ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders 中提出，并首次在此仓库发布。

免责声明：发布 ConvNeXT V2 的团队未为此模型编写模型卡片，因此本模型卡片由 Hugging Face 团队编写。

修改说明

在原始 README 中添加了 CANN 版本依赖说明，并修改了示例代码。

模型描述

ConvNeXt V2 是一个纯卷积模型（ConvNet），它在 ConvNeXt 中引入了全卷积掩码自编码器框架（FCMAE）和新的全局响应归一化（GRN）层。ConvNeXt V2 显著提升了纯卷积网络在各种识别基准上的性能。

model image

预期用途和局限性

您可以将原始模型用于图像分类。

使用方法

以下是如何使用此模型将 COCO 2017 数据集的图像分类为 1000 个 ImageNet 类别之一的示例：

from openmind import AutoImageProcessor
from transformers import ConvNextV2ForImageClassification
import torch
from datasets import load_dataset

dataset = load_dataset("./cats_image")
image = dataset["train"]["image"][0]

preprocessor = AutoImageProcessor.from_pretrained("PyTorch-NPU/convnextv2_tiny_1k_224")
model = ConvNextV2ForImageClassification.from_pretrained("PyTorch-NPU/convnextv2_tiny_1k_224")

inputs = preprocessor(image, return_tensors="pt")

with torch.no_grad():
    logits = model(**inputs).logits

predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label]),

BibTeX 条目和引用信息

@article{DBLP:journals/corr/abs-2301-00808,
  author    = {Sanghyun Woo and
               Shoubhik Debnath and
               Ronghang Hu and
               Xinlei Chen and
               Zhuang Liu and
               In So Kweon and
               Saining Xie},
  title     = {ConvNeXt {V2:} Co-designing and Scaling ConvNets with Masked Autoencoders},
  journal   = {CoRR},
  volume    = {abs/2301.00808},
  year      = {2023},
  url       = {https://doi.org/10.48550/arXiv.2301.00808},
  doi       = {10.48550/arXiv.2301.00808},
  eprinttype = {arXiv},
  eprint    = {2301.00808},
  timestamp = {Tue, 10 Jan 2023 15:10:12 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2301-00808.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}