weixin_72661020/convnextv2-femto-1k-224
模型介绍文件和版本Pull Requests讨论分析

ConvNeXtV2 Femto (1k-224)

1. 简介

ConvNeXtV2 Femto 是一种高效的卷积神经网络图像分类模型,参数量约 5M,输入尺寸 224x224,在 ImageNet-1K 上预训练。

  • 模型: convnextv2-femto-1k-224
  • 架构: ConvNextV2ForImageClassification
  • 输入: 3x224x224
  • 参数量: ~5M (femto)
  • 推理框架: PyTorch + transformers
  • 权重下载地址(ModelScope): https://www.modelscope.cn/models/Xenova/convnextv2-femto-1k-224

2. 验证环境

组件版本
NPUAscend 910
PyTorch2.9.0
torch_npu2.9.0.post1
transformers4.57.6
Python3.10

3. 推理命令

python3 inference.py

推理脚本会自动加载模型并在 NPU 上执行推理。

4. Smoke 验证

推理结果示例:

  • Input shape: [1, 3, 224, 224]
  • Output logits shape: [1, 1000]
  • Predicted class index: 281 (tabby cat)
  • Predicted probability: 0.5950
  • Inference time: ~4.51 ms on NPU

5. 性能参考

指标数值
Batch=1 平均推理时间4.51 ms
Batch=1 吞吐量221.84 samples/s
Batch=2 平均推理时间4.34 ms
Batch=2 吞吐量460.72 samples/s

6. 精度评测

Ascend NPU 精度评测

NPU vs CPU 精度对比(CPU 为基线,NPU 为验证目标):

指标数值
测试用例数1 (ImageNet val2017 sample)
最大 logits 差异0.01827
预测一致性Top-1 和 Top-5 完全一致
精度要求NPU vs CPU 最大 logits 误差 < 1%
精度结论一致(Top-1/5 完全一致,差异为 NPU 浮点精度特性)

精度评测源代码和日志详见 eval/ 目录。

7. 注意事项

  • 模型权重从 ModelScope 下载,使用 facebook/ 命名空间下的 PyTorch 权重
  • Xenova 命名空间下为 ONNX 格式,不兼容 PyTorch 推理
  • NPU float32 与 CPU float32 存在轻微数值精度差异(~1.8%),属于正常硬件精度特性
下载使用量0