timm/resnext50_32x4d.fb_swsl_ig1b_ft_in1k on Ascend NPU

1. 简介

本文档记录将 timm/resnext50_32x4d.fb_swsl_ig1b_ft_in1k 图片分类模型适配到华为昇腾 NPU（Ascend910）的过程。该模型基于 ResNeXt-50 (32x4d) 架构，在 Facebook SWSL 1B 数据集上预训练后微调至 ImageNet-1K，包含 1000 个类别。

适配方式：

使用 ModelScope snapshot_download 下载模型权重
使用 timm.create_model(pretrained=False) 创建模型结构
手动加载本地权重到模型中
推理在 npu:0 上执行

2. 验证环境

硬件：华为昇腾 910B NPU
PyTorch: torch + torch_npu
模型来源：ModelScope（timm/resnext50_32x4d.fb_swsl_ig1b_ft_in1k）
权重格式：safetensors

3. 推理运行

cd timm-resnext50_32x4d.fb_swsl_ig1b_ft_in1k-NPU
python inference.py

推理输出：

=== Top-5 Predictions ===
  1. class_525 (0.7915)
  2. class_888 (0.0389)
  3. class_979 (0.0324)
  4. class_972 (0.0168)
  5. class_460 (0.0130)

4. 精度验证

对单张测试图片进行 CPU 与 NPU 一致性验证：

指标	数值
max_abs_error	0.025042
mean_abs_error	0.001866
relative_error	0.1419%
cosine_similarity	0.999999
threshold	1.0%
结果	PASS

CPU Top-1: class_525 (0.7945)
NPU Top-1: class_525 (0.7915)
CPU Top-5: class_525, class_888, class_979, class_972, class_460
NPU Top-5: class_525, class_888, class_979, class_972, class_460
Top-1 match: True
Top-5 match: True

5. 性能参考

指标	数值
avg latency	7.61 ms
min latency	5.18 ms
max latency	28.27 ms
p50 latency	5.37 ms
p90 latency	28.27 ms
p95 latency	28.27 ms
throughput	131.33 images/sec

测试条件：batch_size=1, image_size=224x224, warmup=2, runs=10

6. 精度评测说明

本项目包含单图 smoke consistency 验证，非官方 ImageNet 完整验证集评测。详细指标见第 4 节。

7. 自验证截图

见 screenshots/self_verification.png

8. 日志文件

logs/inference.log — 推理结果
logs/accuracy.log — 精度一致性验证
logs/benchmark.log — 性能基准测试
logs/env_check.log — 环境检查

9. 注意事项

本项目仅在单卡 Ascend910 NPU 上验证通过
使用 timm.create_model(pretrained=False) + 本地权重加载，不使用 HuggingFace 直连下载
权重文件不提交到 Git 仓库（.gitignore 已排除）
精度验证采用 CPU vs NPU 单图一致性检查，非官方完整评测

10. 标签

#NPU

1. 简介

适配方式：

使用 ModelScope snapshot_download 下载模型权重

使用 timm.create_model(pretrained=False) 创建模型结构

手动加载本地权重到模型中

推理在 npu:0 上执行

4. 精度验证

对单张测试图片进行 CPU 与 NPU 一致性验证：

指标	数值
max_abs_error	0.025042
mean_abs_error	0.001866
relative_error	0.1419%
cosine_similarity	0.999999
threshold	1.0%
结果	PASS

CPU Top-1: class_525 (0.7945)

NPU Top-1: class_525 (0.7915)

CPU Top-5: class_525, class_888, class_979, class_972, class_460

NPU Top-5: class_525, class_888, class_979, class_972, class_460

Top-1 match: True

Top-5 match: True

指标

数值

avg latency

7.61 ms

min latency

5.18 ms

max latency

28.27 ms

p50 latency

5.37 ms

p90 latency

28.27 ms

p95 latency

28.27 ms

throughput

131.33 images/sec