timm/vit_small_patch16_384.augreg_in21k_ft_in1k on Ascend NPU

1. 简介

本项目将 timm/vit_small_patch16_384.augreg_in21k_ft_in1k 图片分类模型适配到华为昇腾 NPU (Ascend910) 上运行。ViT-Small-Patch16-384 是基于 Vision Transformer 的图像分类模型，输入分辨率 384x384，在 ImageNet-21k 上预训练后微调到 ImageNet-1k。

模型来源：ModelScope (timm/vit_small_patch16_384.augreg_in21k_ft_in1k)
模型结构：ViT-Small-Patch16-384 (timm create_model, pretrained=False)
权重加载：ModelScope snapshot_download + safetensors 本地加载
推理设备：昇腾 NPU (Ascend910_9362)
输入分辨率：384x384

2. 验证环境

项目	配置
NPU	Ascend910_9362
CANN	8.5.1
PyTorch	2.x
torch_npu	已安装
模型权重	model.safetensors (84.7MB)
缺失/多余 key	0 / 0
输入分辨率	384x384

3. 推理运行

pip install -r requirements.txt
python inference.py

NPU 推理结果：

Top	Class	概率
Top-1	class_111	1.76%
Top-2	class_499	1.40%
Top-3	class_596	1.24%
Top-4	class_683	1.19%
Top-5	class_818	1.12%

4. 精度验证

对单张测试图片进行 CPU 与 NPU 一致性验证：

指标	数值
max_abs_error	0.009263
mean_abs_error	0.002523
relative_error	0.2718%
cosine_similarity	0.999996
threshold	1.0%
结果	PASS

CPU Top-1: class_111
NPU Top-1: class_111
CPU Top-5: class_111, class_499, class_596, class_683, class_818
NPU Top-5: class_111, class_499, class_596, class_683, class_818
Top-1 match: True
Top-5 match: True

5. 性能参考

指标	数值
avg	5.56 ms
min	5.36 ms
max	5.71 ms
p50	5.63 ms
p90	5.69 ms
p95	5.70 ms
images/sec	179.75

测试条件：batch=1, 384x384, 预热 2 次 + 10 次正式测试, Ascend910_9362。

6. 精度评测说明

本项目包含单图 smoke consistency 验证，非官方 ImageNet 完整验证集评测。详细指标见第 4 节。

7. 自验证截图

见 screenshots/self_verification.png。

8. 日志文件

文件	说明
logs/inference.log	NPU 推理结果
logs/accuracy.log	CPU-NPU 精度一致性验证
logs/benchmark.log	性能基准测试
logs/env_check.log	环境检查信息

9. 注意事项

权重文件（*.safetensors, *.bin 等）不提交到仓库，通过 ModelScope snapshot_download 在运行时自动下载
使用 timm.create_model(pretrained=False) + 本地权重加载，不使用 HuggingFace 自动下载
输入分辨率 384x384，预处理通过 timm.data.resolve_model_data_config 自动生成
单图 smoke consistency 验证，相对误差 0.2718% < 1.0% 阈值，CPU/NPU Top-5 完全匹配

10. 标签

#NPU #Ascend #Ascend910 #timm #ViT #ImageClassification #ModelScope

1. 简介

模型来源：ModelScope (timm/vit_small_patch16_384.augreg_in21k_ft_in1k)

模型结构：ViT-Small-Patch16-384 (timm create_model, pretrained=False)

权重加载：ModelScope snapshot_download + safetensors 本地加载

推理设备：昇腾 NPU (Ascend910_9362)

输入分辨率：384x384

项目

配置

NPU

Ascend910_9362

CANN

8.5.1

PyTorch

2.x

torch_npu

已安装

模型权重

model.safetensors (84.7MB)

缺失/多余 key

0 / 0

输入分辨率

384x384

Top

Class

概率

Top-1

class_111

1.76%

Top-2

class_499

1.40%

Top-3

class_596

1.24%

Top-4

class_683

1.19%

Top-5

class_818

1.12%

4. 精度验证

对单张测试图片进行 CPU 与 NPU 一致性验证：

指标	数值
max_abs_error	0.009263
mean_abs_error	0.002523
relative_error	0.2718%
cosine_similarity	0.999996
threshold	1.0%
结果	PASS

CPU Top-1: class_111

NPU Top-1: class_111

CPU Top-5: class_111, class_499, class_596, class_683, class_818

NPU Top-5: class_111, class_499, class_596, class_683, class_818

Top-1 match: True

Top-5 match: True

指标

数值

avg

5.56 ms

min

5.36 ms

max

5.71 ms

p50

5.63 ms

p90

5.69 ms

p95

5.70 ms

images/sec

179.75

文件

说明

logs/inference.log

NPU 推理结果

logs/accuracy.log

CPU-NPU 精度一致性验证

logs/benchmark.log

性能基准测试

logs/env_check.log

环境检查信息

9. 注意事项

权重文件（*.safetensors, *.bin 等）不提交到仓库，通过 ModelScope snapshot_download 在运行时自动下载

使用 timm.create_model(pretrained=False) + 本地权重加载，不使用 HuggingFace 自动下载

输入分辨率 384x384，预处理通过 timm.data.resolve_model_data_config 自动生成

单图 smoke consistency 验证，相对误差 0.2718% < 1.0% 阈值，CPU/NPU Top-5 完全匹配