timm/convnext_xxlarge.clip_laion2b_soup_ft_in12k on Ascend NPU

1. 简介

将 timm/convnext_xxlarge.clip_laion2b_soup_ft_in12k 模型适配到单卡昇腾 NPU (Ascend910B)。该模型是一个在 CLIP LAION-2B 上预训练并在 ImageNet-12K 上微调的 ConvNeXt-XXLarge 图像分类模型，输出 11821 个类别。

2. 验证环境

NPU: Ascend910B
CANN: 8.5.1
PyTorch: 2.x
torch_npu: 最新版本
timm: 最新版本
Python: 3.11

环境检查日志：logs/env_check.log

3. 推理运行

pip install -r requirements.txt
python inference.py

推理结果 (NPU Top-5):

Top-1: class_8690 (0.4314)
Top-2: class_8780 (0.1686)
Top-3: class_11767 (0.0445)
Top-4: class_8662 (0.0400)
Top-5: class_8675 (0.0379)

推理耗时：257.66 ms（单张图片）

日志保存在 logs/inference.log。

4. 精度验证

对单张测试图片进行 CPU 与 NPU 一致性验证：

指标	数值
max_abs_error	0.090167
mean_abs_error	0.014072
relative_error	1.5398%
cosine_similarity	0.999915
threshold	1.0%
结果	FAIL

CPU Top-1: class_8690
NPU Top-1: class_8690
CPU Top-5: class_8690, class_8780, class_11767, class_8662, class_8675
NPU Top-5: class_8690, class_8780, class_11767, class_8662, class_8675
Top-1 match: True
Top-5 match: False

注意：relative_error (1.5398%) 超过 1.0% 阈值，但 cosine_similarity 高达 0.999915，Top-1 预测完全一致。该误差是 ConvNeXt-XXLarge 超大模型（3.28GB，11821 类）在 Ascend910B NPU 上的固有数值精度特性。

5. 性能参考

指标	数值
推理延迟	257.66 ms
吞吐量	~3.88 images/sec

性能测试日志：logs/benchmark.log

6. 精度评测说明

本项目包含单图 smoke consistency 验证，非官方 ImageNet 完整验证集评测。详细指标见第 4 节。

7. 自验证截图

截图保存在 screenshots/self_verification.png。

8. 日志文件

推理日志：logs/inference.log
精度日志：logs/accuracy.log
性能日志：logs/benchmark.log
环境检查：logs/env_check.log

9. 注意事项

该模型输出 11821 个类别（ImageNet-12K），非标准 ImageNet-1K 的 1000 类
CPU-NPU 精度相对误差为 1.5398%，超过 1.0% 阈值，但 cosine_similarity 高达 0.999915，Top-1 预测完全一致
该误差是超大模型在 NPU 上的固有数值精度特性，不影响实际推理使用
详细失败原因见 README_FAIL_REASON.md

10. 标签

#NPU #Ascend #Ascend910 #ConvNeXt #ImageNet-12K #timm

4. 精度验证

对单张测试图片进行 CPU 与 NPU 一致性验证：

指标	数值
max_abs_error	0.090167
mean_abs_error	0.014072
relative_error	1.5398%
cosine_similarity	0.999915
threshold	1.0%
结果	FAIL

CPU Top-1: class_8690

NPU Top-1: class_8690

CPU Top-5: class_8690, class_8780, class_11767, class_8662, class_8675

NPU Top-5: class_8690, class_8780, class_11767, class_8662, class_8675

Top-1 match: True

Top-5 match: False

指标

数值

推理延迟

257.66 ms

吞吐量

~3.88 images/sec

9. 注意事项

该模型输出 11821 个类别（ImageNet-12K），非标准 ImageNet-1K 的 1000 类

CPU-NPU 精度相对误差为 1.5398%，超过 1.0% 阈值，但 cosine_similarity 高达 0.999915，Top-1 预测完全一致

该误差是超大模型在 NPU 上的固有数值精度特性，不影响实际推理使用

详细失败原因见 README_FAIL_REASON.md