maxvit_rmlp_base_rw_384.sw_in12k_ft_in1k 是基于 timm (PyTorch Image Models) 的图像分类模型,采用 MaxViT (Multi-Axis Vision Transformer) 架构。
MaxViT 是一种混合架构,结合了卷积和注意力机制。该模型通过 timm 库加载预训练权重,可在昇腾 Ascend910 NPU 上直接运行。
pip install torch torch_npu timm Pillow numpy safetensors使用清华镜像:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple torch torch_npu timm Pillow numpy safetensorsfrom modelscope.hub.snapshot_download import snapshot_download
model_dir = snapshot_download('timm/maxvit_rmlp_base_rw_384.sw_in12k_ft_in1k')# CPU
python3 inference.py --device cpu
# NPU
python3 inference.py --device npupython3 compare_cpu_npu.py
| 指标 | 值 |
|---|---|
| CPU Top-1 | 21 |
| NPU Top-1 | 21 |
| Top-1 匹配 | 是 |
| Top-5 重叠 | 5/5 |
| 余弦相似度 | 0.99999247 |
| 最大概率差异 | 0.023438% |
| Top-1 概率相对误差 | 0.281346% |
| CPU 耗时 | 4.1420s |
| NPU 耗时 | 0.2663s |
| 加速比 | 15.56x |
| 类别 | CPU 概率 | NPU 概率 | 差异 |
|---|---|---|---|
| 21 | 0.083307 | 0.083073 | 0.00023438 |
| 22 | 0.029859 | 0.029874 | 0.00001530 |
| 23 | 0.043544 | 0.043535 | 0.00000896 |
| 127 | 0.017167 | 0.017208 | 0.00004106 |
| 128 | 0.016331 | 0.016287 | 0.00004372 |
NPU与CPU推理结果误差为0.0234%,符合精度误差小于1%的要求
NPU与CPU推理结果误差为0.0234%,符合精度误差小于1%的要求
以下日志展示了 NPU 推理成功的关键信息:
Top-1 Match: MATCH (CPU=21, NPU=21)
Top-5 Overlap: 5/5
--- Top-5 Probabilities ---#+NPU #+CV #+图像分类 #+昇腾 #+Ascend910 #+timm #+MaxViT #+PyTorch