weixin_72661020/convnextv2-tiny-22k-224
模型介绍文件和版本Pull Requests讨论分析

ConvNeXtV2-Tiny-22k-224

该模型是 ConvNeXtV2 架构的轻量变体,在 ImageNet-22K 上进行预训练,并在 ImageNet-1K(224x224 分辨率)上进行微调。

模型参数:28.6M 输入尺寸:3x224x224

模型描述

ConvNeXtV2 是一种改进的卷积神经网络架构,它融合了视觉Transformer的相关技术(如 LayerNorm、GELU、大核等),同时保持了纯卷积网络的高效性。V2 版本引入了带有 GRN(全局响应归一化)的 ConvNeXtV2Block,以实现更优性能。

用法

from PIL import Image
import requests
from transformers import AutoImageProcessor, ConvNextV2ForImageClassification

model_path = "weixin_72661020/convnextv2-tiny-22k-224"
processor = AutoImageProcessor.from_pretrained(model_path)
model = ConvNextV2ForImageClassification.from_pretrained(model_path)

# Example inference
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits
    predicted_class = logits.argmax(-1).item()
print(f"Predicted class: {predicted_class}")

NPU性能(Ascend910)

批次大小平均延迟(毫秒)吞吐量(帧/秒)
17.78128.6
49.55418.7
816.57482.7

精度

CPU与NPU的Top-1一致性:100% KL散度(最大值):< 0.00001

文件

  • pytorch_model.bin / model.safetensors:模型权重
  • config.json:模型配置
  • preprocessor_config.json:图像处理器配置
下载使用量0