gcw_GSiqzzLf/mobilenetv4_conv_aa_large.e230_r384_in12k-npu

mobilenetv4_conv_aa_large.e230_r384_in12k 昇腾 NPU 适配

模型介绍

mobilenetv4_conv_aa_large.e230_r384_in12k 是 MobileNetV4 系列的 Conv 变体，基于 timm (PyTorch Image Models) 框架的图像分类模型，在 ImageNet-12k 预训练。

模型名称: mobilenetv4_conv_aa_large.e230_r384_in12k
任务类型: 图像分类
模型框架: PyTorch + timm
输入格式: 图片 (RGB, 384x384)
输出格式: 11821 类 ImageNet-12k 分类概率
原始模型地址: timm/mobilenetv4_conv_aa_large.e230_r384_in12k
ModelScope 地址: timm/mobilenetv4_conv_aa_large.e230_r384_in12k

环境要求

操作系统: Linux (aarch64)
NPU: Ascend910 (64GB HBM)
CANN: 8.5.1
Python: 3.11.14
PyTorch: 2.9.0
torch_npu: 2.9.0.post1
timm: 1.0.27

NPU 适配说明

该模型为标准的 PyTorch 图像分类模型，通过 timm 库加载预训练权重，可在昇腾 Ascend910 NPU 上直接运行。适配过程的关键步骤：

从 ModelScope 下载模型权重文件 (model.safetensors)
使用 timm.create_model() 创建模型实例
加载本地权重到模型中
将模型迁移到 NPU 设备 (npu:0)
执行推理

快速开始

1. 安装依赖

pip install torch torch_npu timm Pillow numpy safetensors modelscope

如果下载速度慢，可使用清华镜像源：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple torch torch_npu timm Pillow numpy safetensors modelscope

2. 下载模型权重

python -c "from modelscope.hub.snapshot_download import snapshot_download; snapshot_download('timm/mobilenetv4_conv_aa_large.e230_r384_in12k')"

3. 运行推理

python inference.py

4. CPU / NPU 精度对比

python compare_cpu_npu.py

推理脚本 (inference.py)

import torch
import torch_npu
from timm import create_model
from safetensors.torch import load_file
from PIL import Image
from timm.data import create_transform, resolve_data_config

model = create_model('mobilenetv4_conv_aa_large', pretrained=False, num_classes=11821)
model.eval()
state_dict = load_file('model.safetensors')
model.load_state_dict(state_dict, strict=False)
model = model.to('npu:0')

img = Image.open('test.jpg').convert('RGB')
config = resolve_data_config({{}}, model=create_model('mobilenetv4_conv_aa_large', pretrained=False, num_classes=11821))
transform = create_transform(
    input_size=384, is_training=False,
    mean=config.get('mean', (0.485, 0.456, 0.406)),
    std=config.get('std', (0.229, 0.224, 0.225)),
    interpolation=config.get('interpolation', 'bicubic'))
input_tensor = transform(img).unsqueeze(0).to('npu:0')

with torch.no_grad():
    output = model(input_tensor)
probs = torch.nn.functional.softmax(output[0].cpu(), dim=0)
print(f'Top-1 class: {probs.argmax().item()}')

推理结果

CPU 推理结果

指标	值
Top-1 类别	11756
Top-5 类别	[11756, 954, 551, 552, 544]
推理耗时	0.437s

NPU 推理结果

指标	值
Top-1 类别	11756
Top-5 类别	[11756, 954, 551, 552, 544]
推理耗时	0.013s

推理输出截图

推理截图

CPU / NPU 精度对比

精度指标

指标	值
Logits 最大绝对误差	0.00955772
Logits 平均绝对误差	0.00403877
概率最大绝对误差	3.639e-05
概率平均绝对误差	8e-08
相对误差	0.0292%
Cosine 相似度	1.0

Top-K 对比

指标	CPU	NPU	匹配
Top-1	11756	11756	✓
Top-5 重叠	5/5	5/5	✓

性能对比

指标	CPU	NPU	加速比
推理耗时	0.437s	0.013s	34.97x

精度测试结论

NPU 与 CPU 推理结果误差为 0.0292%，符合精度误差小于 1% 的要求。

推理成功证据

本仓库提供完整的推理脚本，支持 CPU 和 NPU 双平台推理：

# NPU 推理
python3 inference.py --device npu

# CPU 推理
python3 inference.py --device cpu

推理完成后会输出推理结果和耗时，表明模型在 NPU 上推理成功。

模型标签

#+NPU #+CV #+图像分类 #+昇腾 #+PyTorch #+timm #+Ascend910

参考链接