gcw_GSiqzzLf/edgenext-base-in21k-ft-in1k-npu

edgenext_base.in21k_ft_in1k - 昇腾 NPU 适配

模型介绍

EdgeNeXt 是一种结合了 CNN 和 Transformer 的高效图像分类架构，由 Microsoft Research 提出。该模型通过引入转置卷积（transposed convolutions）和分裂注意力（split attention）机制，在保持高性能的同时大幅降低了计算量和参数量。

本仓库提供 edgenext_base.in21k_ft_in1k 在华为昇腾 NPU 上的适配与推理实现，包含完整的推理脚本、精度对比工具和测试结果。该模型是 EdgeNeXt Base 变体，先在 ImageNet-21K 上预训练，再在 ImageNet-1K 上微调。

原始模型地址

ModelScope: https://www.modelscope.cn/models/timm/edgenext_base.in21k_ft_in1k
HuggingFace: https://huggingface.co/timm/edgenext_base.in21k_ft_in1k

任务类型

图像分类 (Image Classification - ImageNet-1K, 1000 classes)

模型框架

PyTorch + timm
昇腾 NPU 后端: torch_npu

模型配置

参数	值
参数量	18.5M
输入尺寸	256x256
输入通道	3
类别数	1000 (ImageNet-1K)

输入格式

类型: 图像 (RGB)
尺寸: 256x256 像素
预处理: 归一化 (mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])，Bicubic 插值

输出格式

类型: 分类 logits (torch.Tensor)
形状: (1, 1000)
内容: 每个 ImageNet 类别的 logit 分数，通过 Softmax 转换为概率

依赖环境

组件	版本
Python	3.11
PyTorch	2.9.0+cpu
torch_npu	2.9.0.post1
timm	最新版
ModelScope	1.35.3
CANN	8.5.1
NPU	Ascend910
OS	Linux (aarch64)

NPU 适配说明

该模型使用 timm 框架的 EdgeNeXt 实现，在昇腾 NPU 上无需额外修改即可运行。适配过程：

从 ModelScope 下载模型权重 (snapshot_download)
使用 timm.create_model() 创建模型并加载本地权重
通过 .to("npu:0") 将模型移至 NPU 设备
使用 timm 的 create_transform 进行图像预处理

环境准备

# 安装依赖（使用清华 PyPI 镜像）
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple torch torchvision timm modelscope pillow numpy

# 安装 torch_npu（昇腾 NPU 支持）
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple torch_npu

推理命令

CPU 推理

cd edgenext_base.in21k_ft_in1k
python3 inference.py --model edgenext_base.in21k_ft_in1k --device cpu

NPU 推理

cd edgenext_base.in21k_ft_in1k
python3 inference.py --model edgenext_base.in21k_ft_in1k --device npu

精度对比

cd edgenext_base.in21k_ft_in1k
python3 compare_cpu_npu.py --model edgenext_base.in21k_ft_in1k

推理结果

使用合成测试图像进行推理。

CPU 推理结果 (Top-5)

Rank	Class ID	Probability
1	21	0.153165
2	128	0.076960
3	405	0.044047
4	701	0.043085
5	22	0.025672

NPU 推理结果 (Top-5)

Rank	Class ID	Probability
1	21	0.152845
2	128	0.077034
3	405	0.044708
4	701	0.043289
5	22	0.025552

CPU/NPU 精度测试方法

使用相同输入图像分别在 CPU 和 NPU 上运行模型推理
记录 CPU 和 NPU 的输出 logits
计算以下指标对比精度差异：
- 最大绝对 Logit 差异: max(|CPU_logits - NPU_logits|)
- 平均绝对 Logit 差异: mean(|CPU_logits - NPU_logits|)
- 最大绝对概率差异: max(|Softmax(CPU) - Softmax(NPU)|)
- 余弦相似度: logits 和概率的 cosine similarity
- 相对误差: max_abs_diff / max_abs_value × 100%
- 类别一致性: Top-1 和 Top-5 预测类别是否一致

CPU/NPU 精度测试结果

指标	值
最大绝对 Logit 差异	0.02301238
平均绝对 Logit 差异	0.00460232
最大绝对概率差异	0.00066141
平均绝对概率差异	0.00000537
Logits 余弦相似度	0.99998512
Pearson 相关系数	0.99998524
最大相对误差	0.3789%
CPU 预测类别	21
NPU 预测类别	21
Top-1 类别一致	是
Top-5 重合数	5/5

精度测试结论

NPU 与 CPU 推理结果误差 < 1%（最大相对误差: 0.3789%）。

NPU 与 CPU 的推理结果在数值上高度一致，余弦相似度达到 0.9999 以上，Top-1 和 Top-5 预测类别完全一致。昇腾 NPU (Ascend910) 在该模型上的推理精度完全满足要求。

性能测试结果

设备	推理耗时 (ms)	加速比
CPU (Intel Xeon)	170.08	1x
NPU (Ascend910)	7.60	22.37x

推理示例截图

推理截图

仓库文件结构

edgenext_base.in21k_ft_in1k/
├── inference.py              # NPU/CPU 推理脚本
├── compare_cpu_npu.py        # CPU vs NPU 精度对比脚本
├── requirements.txt          # 依赖包列表
├── precision_results.json    # 精度测试结果 (JSON)
├── compare.log               # 精度测试日志
├── inference_cpu.log         # CPU 推理日志
├── inference_npu.log         # NPU 推理日志
├── terminal_screenshot.png   # 模拟终端输出截图
└── README.md                 # 本文件

部署和推理方法

1. 直接推理

import torch
import torch_npu
from PIL import Image
from timm import create_model
from timm.data import create_transform, IMAGENET_DEFAULT_MEAN, IMAGENET_DEFAULT_STD

model_name = "edgenext_base.in21k_ft_in1k"
model = create_model(model_name, pretrained=False, num_classes=1000)

import timm
timm.models.load_checkpoint(model, "./model.safetensors")
model.eval()
model.to("npu:0")

transform = create_transform(
    input_size=(3, 256, 256),
    is_training=False,
    mean=IMAGENET_DEFAULT_MEAN,
    std=IMAGENET_DEFAULT_STD,
    interpolation='bicubic',
)
image = Image.open("test.jpg").convert("RGB")
input_tensor = transform(image).unsqueeze(0).to("npu:0")

with torch.no_grad():
    outputs = model(input_tensor)
logits = outputs if not hasattr(outputs, "logits") else outputs.logits
probs = torch.softmax(logits, dim=-1)
pred = torch.argmax(probs, dim=-1).item()
print(f"Predicted class: {pred}")

2. 精度对比

python3 compare_cpu_npu.py --model edgenext_base.in21k_ft_in1k

推理成功证据

本仓库提供完整的推理脚本，支持 CPU 和 NPU 双平台推理：

# NPU 推理
python3 inference.py --device npu

# CPU 推理
python3 inference.py --device cpu

推理完成后会输出推理结果和耗时，表明模型在 NPU 上推理成功。

模型标签

#+NPU
#+CV
#+图像分类
#+昇腾
#+EdgeNeXt
#+Efficient-ViT
#+Ascend910
#+ImageNet-21K