timm/convnext_base.clip_laion2b_augreg_ft_in12k on Ascend NPU

1. 简介

将 timm/convnext_base.clip_laion2b_augreg_ft_in12k 图片分类模型适配到单卡昇腾 NPU（Ascend910）。

该模型来源于 CLIP/LAION 预训练，经 OpenCLIP 流程微调为图片分类头输出，类别数为 11821。

2. 验证环境

NPU: Ascend910
PyTorch: 2.9.0+cpu
torch_npu: available
timm: 1.0.27

3. 推理运行

pip install -r requirements.txt
python inference.py

推理结果 (NPU Top-5):

Top-1: class_6486 (0.0047)
Top-2: class_2624 (0.0026)
Top-3: class_7124 (0.0024)
Top-4: class_6481 (0.0021)
Top-5: class_5662 (0.0021)

日志保存在 logs/inference.log。

4. 精度验证

python eval_accuracy.py

推理结果（单张测试图片）：

Top-1 class: class_6486
Top-1 prob: 0.004726
Top-5: class_6486 (0.004726), class_2624 (0.002570), class_7124 (0.002370), class_6481 (0.002149), class_5662 (0.002136) 对单张测试图片进行 CPU 与 NPU 一致性验证：

指标	数值
max_abs_error	0.016425
mean_abs_error	0.003875
relative_error	0.4262%
cosine_similarity	0.999993
threshold	1.0%
结果	PASS

5. 性能参考

python benchmark.py

Avg latency: 14.94 ms
Throughput: 66.92 images/sec

6. 精度评测

Smoke 测试表明 CPU 与 NPU 输出 logits 高度一致，Top-1/Top-5 预测完全相同。

7. 自验证截图

见 screenshots/self_verification.png 与 screenshots/self_verification.txt。

8. 日志文件

logs/env_check.log — 环境检查
logs/inference.log — NPU 推理结果
logs/accuracy.log — CPU-NPU 一致性对比
logs/benchmark.log — 性能基准

9. 注意事项

模型类别数为 11821（OpenCLIP 头），非标准 ImageNet-1K 的 1000 类。
推理输入分辨率由 timm data config 自动解析（本模型为 256x256）。
权重文件（.safetensors/.bin/.pth）已加入 .gitignore，不提交到仓库。

10. 标签

#NPU #Ascend #ModelScope #timm #ConvNeXt #CLIP #image-classification