timm/vit_base_patch32_clip_384.laion2b_ft_in12k_in1k on Ascend NPU

1. 简介

将 timm/vit_base_patch32_clip_384.laion2b_ft_in12k_in1k 图片分类模型适配到华为昇腾 NPU（Ascend910），使用 ModelScope snapshot_download 下载权重，timm.create_model(pretrained=False) 加载本地权重，无需 HuggingFace 直连。该模型基于 CLIP ViT-Base-Patch32，输入分辨率 384，经 LAION-2B 预训练后在 ImageNet-12k 上微调。

2. 验证环境

项目	值
设备	Ascend910
PyTorch	torch + torch_npu
模型来源	ModelScope: timm/vit_base_patch32_clip_384.laion2b_ft_in12k_in1k
权重格式	model.safetensors
输入分辨率	384x384

3. 推理运行

pip install -r requirements.txt
python inference.py

推理结果（NPU）：

Top-1: class_468 (0.3507)
Top-2: class_920 (0.2454)
Top-3: class_829 (0.1005)
Top-4: class_919 (0.0367)
Top-5: class_466 (0.0173)

4. 精度验证

对单张测试图片进行 CPU 与 NPU 一致性验证：

指标	数值
max_abs_error	0.020799
mean_abs_error	0.003534
relative_error	0.3862%
cosine_similarity	0.999994
threshold	1.0%
结果	PASS

CPU Top-1: class_468
NPU Top-1: class_468
CPU Top-5: class_468, class_920, class_829, class_919, class_466
NPU Top-5: class_468, class_920, class_829, class_919, class_466
Top-1 match: True
Top-5 match: True

5. 性能参考

指标	数值
Avg latency	6.39 ms
Min latency	6.31 ms
Max latency	6.46 ms
P50 latency	6.39 ms
P90 latency	6.46 ms
P95 latency	6.46 ms
Throughput	156.53 images/sec

6. 精度评测说明

本项目包含单图 smoke consistency 验证，非官方 ImageNet 完整验证集评测。详细指标见第 4 节。

7. 自验证截图

见 screenshots/self_verification.png。

8. 日志文件

logs/inference.log - 推理结果日志
logs/accuracy.log - 精度验证日志
logs/benchmark.log - 性能基准测试日志

9. 注意事项

使用 ModelScope snapshot_download 下载模型权重，不使用 HuggingFace 直连
使用 timm.create_model(pretrained=False) 创建模型结构并加载本地权重
权重文件不包含在提交工程中（.safetensors/.bin 已在 .gitignore 中排除）
该模型输入分辨率为 384x384（CLIP ViT-Base-Patch32）

10. 标签

#NPU #Ascend #Ascend910 #timm #vit #CLIP #image-classification

1. 简介

项目

值

设备

Ascend910

PyTorch

torch + torch_npu

模型来源

ModelScope: timm/vit_base_patch32_clip_384.laion2b_ft_in12k_in1k

权重格式

model.safetensors

输入分辨率

384x384

4. 精度验证

对单张测试图片进行 CPU 与 NPU 一致性验证：

指标	数值
max_abs_error	0.020799
mean_abs_error	0.003534
relative_error	0.3862%
cosine_similarity	0.999994
threshold	1.0%
结果	PASS

CPU Top-1: class_468

NPU Top-1: class_468

CPU Top-5: class_468, class_920, class_829, class_919, class_466

NPU Top-5: class_468, class_920, class_829, class_919, class_466

Top-1 match: True

Top-5 match: True

指标

数值

Avg latency

6.39 ms

Min latency

6.31 ms

Max latency

6.46 ms

P50 latency

6.39 ms

P90 latency

6.46 ms

P95 latency

6.46 ms

Throughput

156.53 images/sec

9. 注意事项

使用 ModelScope snapshot_download 下载模型权重，不使用 HuggingFace 直连

使用 timm.create_model(pretrained=False) 创建模型结构并加载本地权重

权重文件不包含在提交工程中（.safetensors/.bin 已在 .gitignore 中排除）

该模型输入分辨率为 384x384（CLIP ViT-Base-Patch32）