weixin_72661020/convnextv2-nano-22k-384
模型介绍文件和版本Pull Requests讨论分析

ConvNeXtV2-nano-22k-384

ConvNeXtV2-nano-22k-384 是 ConvNeXtV2 系列模型,采用全卷积掩码自编码器(FCMAE)预训练方法,在 ImageNet-22k 数据集上进行预训练,并在 384x384 分辨率的 ImageNet-1k 数据集上进行微调。

模型详情

  • 架构: ConvNextV2ForImageClassification
  • 模型尺寸: Nano(深度:[2, 2, 8, 2],隐藏层大小:[80, 160, 320, 640])
  • 参数数量: 15.6M
  • 输入分辨率: 384x384
  • 预训练: 在 ImageNet-22K 上使用 FCMAE
  • 微调: 在 384x384 分辨率的 ImageNet-1K 上进行
  • 原始模型: facebook/convnextv2-nano-22k-384

用法

from PIL import Image
import requests
from transformers import AutoImageProcessor, ConvNextV2ForImageClassification

# Load model and processor
model_name = "facebook/convnextv2-nano-22k-384"
processor = AutoImageProcessor.from_pretrained(model_name)
model = ConvNextV2ForImageClassification.from_pretrained(model_name)

# Prepare input
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

# Inference
outputs = model(**inputs)
logits = outputs.logits
predicted_class = logits.argmax(-1).item()

Ascend NPU 部署

该模型已在 Ascend NPU(Ascend910)上完成验证。

环境

  • PyTorch 2.9.0
  • torch_npu 兼容
  • transformers 4.57.6
  • Python 3.11

性能(Ascend910)

批次大小延迟(毫秒)吞吐量(张/秒)
16.80147.00
26.98286.46
48.85451.80
813.52591.63

精度(CPU 与 NPU 对比)

  • Top-1 一致性:100%
  • 平均 KL 散度:< 0.00001
  • 状态:PASS

文件

├── inference.py              # NPU inference script
├── eval/
│   ├── run_accuracy.py       # CPU vs NPU accuracy validation
│   └── run_performance.py    # Performance benchmark
└── ms_model/
    └── facebook/convnextv2-nano-22k-384/
        ├── config.json
        ├── model.safetensors
        ├── pytorch_model.bin
        └── preprocessor_config.json
下载使用量0