该模型是 ConvNeXtV2 架构的轻量变体,在 ImageNet-22K 上进行预训练,并在 ImageNet-1K(224x224 分辨率)上进行微调。
模型参数:28.6M 输入尺寸:3x224x224
ConvNeXtV2 是一种改进的卷积神经网络架构,它融合了视觉Transformer的相关技术(如 LayerNorm、GELU、大核等),同时保持了纯卷积网络的高效性。V2 版本引入了带有 GRN(全局响应归一化)的 ConvNeXtV2Block,以实现更优性能。
from PIL import Image
import requests
from transformers import AutoImageProcessor, ConvNextV2ForImageClassification
model_path = "weixin_72661020/convnextv2-tiny-22k-224"
processor = AutoImageProcessor.from_pretrained(model_path)
model = ConvNextV2ForImageClassification.from_pretrained(model_path)
# Example inference
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
predicted_class = logits.argmax(-1).item()
print(f"Predicted class: {predicted_class}")| 批次大小 | 平均延迟(毫秒) | 吞吐量(帧/秒) |
|---|---|---|
| 1 | 7.78 | 128.6 |
| 4 | 9.55 | 418.7 |
| 8 | 16.57 | 482.7 |
CPU与NPU的Top-1一致性:100% KL散度(最大值):< 0.00001
pytorch_model.bin / model.safetensors:模型权重config.json:模型配置preprocessor_config.json:图像处理器配置