timm/mobilenetv3_large_100.ra_in1k on Ascend NPU #NPU

1. 简介

将 timm 库中的 MobileNetV3-Large (ImageNet-1k pretrained, 100裁剪) 模型适配到华为昇腾 NPU (Ascend910B) 单卡环境。使用 ModelScope snapshot_download 下载权重，timm.create_model(pretrained=False) 创建模型结构并加载本地权重，不依赖 HuggingFace 直连下载。

原始模型地址：https://modelscope.cn/models/timm/mobilenetv3_large_100.ra_in1k
模型类型：MobileNetV3-Large (轻量级卷积网络)
参数量：约 5.4M
输入分辨率：224x224
输出类别数：1000 (ImageNet-1k)

2. 验证环境

项目	信息
NPU 型号	Ascend910B
PyTorch	2.x
torch_npu	已安装
timm	已安装
ModelScope	已安装
操作系统	Linux aarch64

3. 推理运行

pip install -r requirements.txt
python inference.py

推理输出示例：

Output shape: torch.Size([1, 1000])
Top-1: class_718 prob=0.0762
Top-2: class_634 prob=0.0590
Top-3: class_705 prob=0.0521
Top-4: class_820 prob=0.0502
Top-5: class_912 prob=0.0345

4. 精度验证

python eval_accuracy.py

对单张测试图片进行 CPU 与 NPU 一致性验证：

指标	数值
max_abs_error	0.008712
mean_abs_error	0.001907
relative_error	0.2509%
cosine_similarity	0.999997
threshold	1.0%
结果	PASS

CPU Top-1 与 NPU Top-1 类别一致
CPU Top-5 与 NPU Top-5 类别一致

5. 性能参考

指标	值
推理次数	10
平均延迟	5.88 ms
最小延迟	5.84 ms
最大延迟	5.92 ms
P50	5.88 ms
P90	5.92 ms
P95	5.92 ms
吞吐量	170.07 images/sec

6. 精度评测

本项目执行的是 Smoke 一致性验证（CPU vs NPU 同输入同精度对比），非官方 ImageNet 验证集精度评测。Top-1/Top-5 在 CPU 与 NPU 间完全匹配，确认模型迁移无精度损失。

7. 自验证截图

参见 screenshots/self_verification.png。

8. 日志文件

文件	说明
`logs/inference.log`	推理输出日志
`logs/accuracy.log`	精度一致性验证日志
`logs/benchmark.log`	性能基准测试日志
`logs/env_check.log`	环境检查日志

9. 注意事项

使用 ModelScope snapshot_download 下载权重，不依赖 HuggingFace Hub
timm.create_model(pretrained=False) + 本地权重加载，确保离线可用
权重文件未提交至仓库（.gitignore 已排除）
性能数据仅反映单次推理场景，实际部署需结合具体业务场景调优

10. 标签

#NPU #Ascend #MobileNetV3 #ImageNet #timm #ModelScope #昇腾

1. 简介

原始模型地址：https://modelscope.cn/models/timm/mobilenetv3_large_100.ra_in1k

模型类型：MobileNetV3-Large (轻量级卷积网络)

参数量：约 5.4M

输入分辨率：224x224

输出类别数：1000 (ImageNet-1k)

项目

信息

NPU 型号

Ascend910B

PyTorch

2.x

torch_npu

已安装

timm

已安装

ModelScope

已安装

操作系统

Linux aarch64

指标

数值

max_abs_error

0.008712

mean_abs_error

0.001907

relative_error

0.2509%

cosine_similarity

0.999997

threshold

1.0%

结果

PASS

指标

值

推理次数

平均延迟

5.88 ms

最小延迟

5.84 ms

最大延迟

5.92 ms

P50

5.88 ms

P90

5.92 ms

P95

5.92 ms

吞吐量

170.07 images/sec

文件

说明

logs/inference.log

推理输出日志

logs/accuracy.log

精度一致性验证日志

logs/benchmark.log

性能基准测试日志

logs/env_check.log

环境检查日志

9. 注意事项

使用 ModelScope snapshot_download 下载权重，不依赖 HuggingFace Hub

timm.create_model(pretrained=False) + 本地权重加载，确保离线可用

权重文件未提交至仓库（.gitignore 已排除）

性能数据仅反映单次推理场景，实际部署需结合具体业务场景调优