mobilenet_v2_1.0_224 on Ascend NPU

1. 简介

本文档记录 google/mobilenet_v2_1.0_224 MobileNetV2 轻量级图像分类模型在昇腾 NPU（Ascend 910B3）上的迁移适配、精度评测与性能验证结果。

MobileNetV2 是面向移动端和边缘设备的轻量级卷积神经网络，使用深度可分离卷积（depthwise separable convolution）和倒残差结构（inverted residual）在保持精度的同时大幅减少参数量和计算量。该模型在 ImageNet-1k 上预训练，支持 1000 类分类，输入为 224×224 图像。相比 ViT/Swin 等 Transformer 模型，MobileNetV2 是纯 CNN 架构，其卷积算子在 NPU 上有原生加速支持。

2. 验证环境

组件	版本
`torch`	`2.8.0`
`torch_npu`	`2.8.0.post4`
`transformers`	`5.8.1`
`CANN`	`8.5.1`

NPU：8 × Ascend 910B3
精度对比基准：CPU（x86, PyTorch 2.8.0）

3. 部署使用流程

3.1 环境准备

conda create -n mobilenet_v2_1.0_224 python=3.11 -y
conda activate mobilenet_v2_1.0_224

pip install torch==2.8.0 torch_npu==2.8.0.post4 \
    -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install transformers torchvision pillow numpy \
    -i https://pypi.tuna.tsinghua.edu.cn/simple

3.2 模型权重下载

modelscope download --model google/mobilenet_v2_1.0_224 \
    --local_dir ./mobilenet_v2_1.0_224

3.3 推理脚本使用

python inference.py --image photo.jpg --device npu
python inference.py --image_dir ./photos/ --device npu

from inference import AgeClassifier
clf = AgeClassifier(model_path="./mobilenet_v2_1.0_224", device="npu")
results = clf.predict(["photo.jpg"])

4. Smoke 验证

python inference.py --image photo.jpg --device npu

预期输出：Top-5 分类标签及置信度，无运行时错误。

5. 性能参考

测试条件：10 张合成 224×224 图像（固定种子），batch_size=8。

指标	数值
CPU 吞吐量	`17.6` img/s
NPU 吞吐量	`98.9` img/s
CPU/NPU 加速比	`5.6` ×

MobileNetV2 为轻量级 CNN，CPU 上已有较好性能（17.6 img/s）。NPU 加速比为 5.6×，低于 Transformer 模型的主要原因：CNN 模型本身在 CPU 上执行效率较高，且小 batch 场景下 NPU 的并行优势未完全发挥。增加 batch_size 到 64 可进一步提升 NPU 吞吐。

6. 精度评测

6.1 评测方法

分别在 CPU 和 NPU 上推理 10 张合成图像，比较 softmax 概率向量的余弦相似度、MAE 和 Top-1 一致性。

6.2 评测结果

指标	数值
平均余弦相似度	`0.999993`
MAE	`0.000065`
精度误差率	`0.0007%`
Top-1 准确率	`100.0%`

结论：精度误差率 0.0007%，远低于 1% 要求，PASS。

7. 迁移适配说明

7.1 模型结构

Backbone：MobileNetV2（深度可分离卷积 + 倒残差块）
Classifier：全局平均池化 + Dropout + 全连接层（1280 → 1000）
参数量：仅 3.5M（远小于 ViT 的 86M 和 Swin 的 29M）
输入：224×224 RGB 图像
输出：1000 维 softmax 概率

7.2 适配要点

使用 AutoModelForImageClassification.from_pretrained() 加载
纯 CNN 架构，所有算子（Conv2d、BatchNorm2d、ReLU6、AdaptiveAvgPool2d）NPU 原生支持
model.to("npu:0") 一步完成权重和设备迁移
预处理（AutoImageProcessor）在 CPU 完成

8. 注意事项

轻量级模型：MobileNetV2 参数量小（13.6MB 权重文件），加载速度快，适合资源受限场景
batch_size 优化：CNN 在 NPU 上的加速效果随 batch_size 增大而提升，高吞吐场景建议 batch_size ≥ 32
INT8 量化：可进一步使用 NPU 的 INT8 量化能力加速推理，当前验证使用 FP32
ImageNet 标签：模型输出标准 1000 类 ImageNet-1k 标签，通过 model.config.id2label 获取