timm/vit_large_patch16_224.augreg_in21k on Ascend NPU

1. 简介

将 timm ViT-Large/16（ImageNet-21k 预训练）适配至单卡昇腾 NPU（Ascend910）。模型输出 21843 个类别，基于 ImageNet-21k 数据集预训练。

模型来源：ModelScope - timm/vit_large_patch16_224.augreg_in21k
模型架构：Vision Transformer Large (ViT-L/16)
输入尺寸：224x224
输出类别数：21843（ImageNet-21k）

2. 验证环境

项目	版本
硬件	华为 Ascend 910
CANN	8.5.1
PyTorch	2.x
torch_npu	latest
timm	latest
Python	3.11

3. 推理运行

pip install -r requirements.txt
python download_test_image.py
python inference.py

推理结果 (NPU Top-5):

Top-1: class_5293 (0.8381)
Top-2: class_17267 (0.0445)
Top-3: class_8977 (0.0318)
Top-4: class_8976 (0.0263)
Top-5: class_4814 (0.0081)

日志保存在 logs/inference.log。

4. 精度验证

对单张测试图片进行 CPU 与 NPU 一致性验证：

指标	数值
max_abs_error	0.105127
mean_abs_error	0.028588
relative_error	0.1824%
cosine_similarity	0.999999
threshold	1.0%
结果	PASS

CPU Top-1: class_5293
NPU Top-1: class_5293
CPU Top-5: class_5293, class_17267, class_8977, class_8976, class_4814
NPU Top-5: class_5293, class_17267, class_8977, class_8976, class_4814
Top-1 match: True
Top-5 match: True

5. 性能参考

指标	数值
平均延迟	10.35 ms
最小延迟	10.22 ms
最大延迟	10.41 ms
P50 延迟	10.36 ms
P90 延迟	10.40 ms
P95 延迟	10.40 ms
吞吐量	96.66 images/sec

6. 精度评测说明

本项目包含单图 smoke consistency 验证，非官方 ImageNet 完整验证集评测。详细指标见第 4 节。

relative_error = 0.1824% < 1.0%，CPU-NPU 精度一致性通过
cosine_similarity = 0.999999，输出高度一致
Top-1 和 Top-5 预测结果完全匹配

7. 自验证截图

见 screenshots/self_verification.png

8. 日志文件

文件	说明
logs/inference.log	推理运行日志
logs/accuracy.log	精度验证日志
logs/benchmark.log	性能基准测试日志

9. 注意事项

本模型输出 21843 个类别（ImageNet-21k），非 ImageNet-1k 的 1000 类
权重通过 ModelScope snapshot_download 下载，使用 pretrained=False + 本地加载
精度验证为单图 smoke test，非完整验证集评测
性能数据为单次推理延迟，实际部署吞吐量可能更高

10. 标签 #NPU

1. 简介

将 timm ViT-Large/16（ImageNet-21k 预训练）适配至单卡昇腾 NPU（Ascend910）。模型输出 21843 个类别，基于 ImageNet-21k 数据集预训练。

模型来源：ModelScope - timm/vit_large_patch16_224.augreg_in21k

模型架构：Vision Transformer Large (ViT-L/16)

输入尺寸：224x224

输出类别数：21843（ImageNet-21k）

项目

版本

硬件

华为 Ascend 910

CANN

8.5.1

PyTorch

2.x

torch_npu

latest

timm

latest

Python

3.11

4. 精度验证

对单张测试图片进行 CPU 与 NPU 一致性验证：

指标	数值
max_abs_error	0.105127
mean_abs_error	0.028588
relative_error	0.1824%
cosine_similarity	0.999999
threshold	1.0%
结果	PASS

CPU Top-1: class_5293

NPU Top-1: class_5293

CPU Top-5: class_5293, class_17267, class_8977, class_8976, class_4814

NPU Top-5: class_5293, class_17267, class_8977, class_8976, class_4814

Top-1 match: True

Top-5 match: True

指标

数值

平均延迟

10.35 ms

最小延迟

10.22 ms

最大延迟

10.41 ms

P50 延迟

10.36 ms

P90 延迟

10.40 ms

P95 延迟

10.40 ms

吞吐量

96.66 images/sec

文件

说明

logs/inference.log

推理运行日志

logs/accuracy.log

精度验证日志

logs/benchmark.log

性能基准测试日志

9. 注意事项

本模型输出 21843 个类别（ImageNet-21k），非 ImageNet-1k 的 1000 类

权重通过 ModelScope snapshot_download 下载，使用 pretrained=False + 本地加载

精度验证为单图 smoke test，非完整验证集评测

性能数据为单次推理延迟，实际部署吞吐量可能更高