Xiaoxy510/mobilenetv3_large_100.ra_in1k-ascend

MobileNetV3 Large 100 on Ascend NPU

1. 简介

本文档记录 mobilenetv3_large_100.ra_in1k 图像分类模型在 Ascend 910B3 NPU 上的适配与验证结果。

MobileNetV3 是 Google 提出的轻量级 CNN 模型，采用深度可分离卷积、SE 模块和 hard-swish 激活函数。mobilenetv3_large_100 是 MobileNetV3 Large 系列中宽度乘子为 1.00 的版本，参数量约 5.5M。

主要工作：

在 Ascend NPU 上加载并运行 timm 格式的 MobileNetV3 模型
CPU 与 NPU 推理精度对比验证（相对误差 < 1%）
NPU 推理性能评测

2. 验证环境

组件	版本
`torch`	`2.8.0`
`torch-npu`	`2.8.0.post4`
`timm`	`1.0.27`
`transformers`	`4.57.6`

NPU：Ascend 910B3（8 逻辑卡）
输入尺寸：3 x 224 x 224

3. 环境准备

3.1 安装依赖

pip install torch torchvision torch_npu -i https://repo.huaweicloud.com/repository/pypi/simple
pip install timm transformers pillow -i https://repo.huaweicloud.com/repository/pypi/simple

3.2 下载模型权重

from modelscope import snapshot_download
snapshot_download('timm/mobilenetv3_large_100.ra_in1k', local_dir='./mobilenetv3_large_100.ra_in1k')

4. 快速开始

# 单张图片推理
python inference.py --image /path/to/image.jpg --topk 5

# 批量推理
python inference.py --image_dir /path/to/images/

# URL 图片
python inference.py --image https://example.com/cat.jpg

5. 推理验证

python inference.py --model_path ./mobilenetv3_large_100.ra_in1k --image test.jpg --device npu

模型加载正常，NPU 推理返回 top-5 分类结果。

6. 性能参考

测试条件：batch_size=32，200 样本，100 次基准迭代。

指标	NPU (Ascend 910B3)	CPU
平均延迟	`8.94 ms` (bs=32)	`32.91 ms`
单样本延迟	`5.27 ms`	`32.91 ms`
吞吐量	`3581.25 img/s`	`30.39 img/s`
加速比	6.25x	1x

7. 精度评测

使用 200 张随机输入图片进行 CPU vs NPU 对比。

指标	数值
最大绝对误差	`4.28e-03`
最大相对误差	`0.21%`
平均相对误差	`0.07%`
最小余弦相似度	`0.99999863`
平均余弦相似度	`0.99999972`
结论	✓ 通过（相对误差 < 1%）

评测命令：

python eval.py --model_path ./mobilenetv3_large_100.ra_in1k --num_images 200 --batch_size 32

8. 注意事项

模型从本地 pytorch_model.bin 加载，支持 safetensors 格式。
输入预处理使用 timm.data.create_transform 自动配置，无需手动设置。
当前精度评测使用随机输入，如需 ImageNet 验证集精度请替换为真实数据加载。