halonet50ts 昇腾 NPU 适配

模型介绍

halonet50ts 是一个基于 timm (PyTorch Image Models) 的图像分类模型，在 ImageNet-1K 数据集上预训练。

模型名称: halonet50ts.a1h_in1k
任务类型: 图像分类
模型框架: PyTorch + timm
输入格式: 图片 (RGB, 256x256)
输出格式: 1000 类 ImageNet 分类概率
原始模型地址: timm/halonet50ts.a1h_in1k

环境要求

操作系统: Linux (aarch64)
NPU: Ascend910 (64GB HBM)
CANN: 8.5.1
Python: 3.11.14
PyTorch: 2.9.0
torch_npu: 2.9.0.post1
timm: 最新版

NPU 适配说明

该模型为标准的 PyTorch 图像分类模型，通过 timm 库加载预训练权重，可在昇腾 Ascend910 NPU 上直接运行。适配过程的关键步骤：

从 ModelScope 下载模型权重文件 (model.safetensors)
使用 timm.create_model() 创建模型实例
加载本地权重到模型中
将模型迁移到 NPU 设备 (npu:0)
执行推理

快速开始

1. 安装依赖

pip install torch torch_npu timm Pillow numpy safetensors

如果下载速度慢，可使用清华镜像源：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple torch torch_npu timm Pillow numpy safetensors

2. 下载模型

from modelscope.hub.snapshot_download import snapshot_download
model_dir = snapshot_download('timm/halonet50ts.a1h_in1k')

3. 推理脚本 (inference.py)

import torch
import torch_npu
from timm import create_model
from safetensors.torch import load_file
from PIL import Image
from timm.data import create_transform, resolve_data_config

model = create_model('halonet50ts', pretrained=False)
model.eval()
state_dict = load_file('model.safetensors')
model.load_state_dict(state_dict, strict=False)
model = model.to('npu:0')

img = Image.open('test.jpg').convert('RGB')
cfg = resolve_data_config({}, model=create_model('halonet50ts', pretrained=False))
transform = create_transform(input_size=256, is_training=False,
    mean=cfg.get('mean'), std=cfg.get('std'),
    interpolation=cfg.get('interpolation', 'bicubic'))
input_tensor = transform(img).unsqueeze(0).to('npu:0')

with torch.no_grad():
    output = model(input_tensor)
probs = torch.nn.functional.softmax(output[0].cpu(), dim=0)
top5 = torch.topk(probs, k=5)
for i in range(5):
    print(f'Top {i+1}: class={top5.indices[i].item()}, prob={top5.values[i].item():.6f}')

4. 运行推理

CPU 推理：

python3 inference.py --device cpu

NPU 推理：

python3 inference.py --device npu

5. 精度对比

python3 compare_cpu_npu.py

推理结果

NPU 推理输出

CPU 与 NPU 推理结果对比

CPU 推理耗时: 0.3066s NPU 推理耗时: 0.1861s 性能加速比: 1.65x

指标	值
CPU Top-1 类别	21
NPU Top-1 类别	21
Top-1 匹配	是
Top-5 重叠	5/5
余弦相似度	0.99999955
最大概率差异	0.039459%
Top-1 概率相对误差	0.397786%

Top-5 概率对比

类别	CPU 概率	NPU 概率	差异
11	0.030582	0.030528	0.00005426
14	0.023575	0.023551	0.00002496
21	0.099197	0.099591	0.00039459
92	0.036130	0.036195	0.00006495
94	0.032628	0.032497	0.00013179

精度测试结论

NPU与CPU推理结果误差为0.0395%,符合精度误差小于1%的要求

NPU 与 CPU 的 Top-1 预测类别完全相同，Top-5 类别完全重叠，余弦相似度接近 1.0，表明 NPU 推理结果与 CPU 推理结果高度一致。

性能分析

由于该模型规模较小（约 48MB（中等规模）），NPU 推理的延迟优势未能完全发挥。对于批量推理场景，NPU 的吞吐量优势会更加明显。

推理成功证据

以下日志展示了 NPU 推理成功的关键信息：

Input shape: torch.Size([1, 3, 256, 256])
Top-1 Match: True (CPU=21, NPU=21)
Top-5 Overlap: 5/5
--- Top-5 Probability Comparison ---
Top-1 Probability Relative Error: 0.397786%
Top-1 Prediction: MATCH (CPU=21, NPU=21)

模型标签

#+NPU #+CV #+图像分类 #+昇腾 #+Ascend910 #+timm #+PyTorch