xcit_small_12_p8_224 昇腾 NPU 适配

模型介绍

XCiT (Cross-Covariance Image Transformer) 是一种基于交叉协方差注意力的图像分类模型。xcit_small_12_p8_224 是 XCiT 系列中的小型模型变体，输入分辨率为 224×224，patch size 为 8。

模型架构：XCiT-small (12 layers, 8 heads, 384 dim)
输入尺寸：224 × 224
patch size：8 × 8
参数量：约 42M
预训练数据：ImageNet-1k

原始模型地址

ModelScope: timm/xcit_small_12_p8_224.fb_in1k
HuggingFace: timm/xcit_small_12_p8_224.fb_in1k

任务类型

图像分类（Image Classification）

模型框架

PyTorch + timm

依赖环境

依赖	版本要求
Python	>= 3.9
PyTorch	>= 2.0.0
torch_npu	>= 2.0.0
timm	>= 1.0.0
modelscope	>= 1.0.0

推理结果

设备	平均推理耗时 (ms)	吞吐量 (samples/sec)
CPU (Intel Xeon)	771.89	1.30
NPU (Ascend910B)	11.67	85.70

NPU 推理速度约为 CPU 的 66 倍。

CPU/NPU 精度测试结果

指标	值
Logits 最大绝对误差	9.124845e-03
Logits 平均绝对误差	2.209068e-03
概率最大绝对误差	1.287763e-05
概率平均绝对误差	2.237989e-06
Top-1 一致性	100%

结论：NPU 与 CPU 推理结果误差 < 1%（最大概率误差为 0.0013%）。

精度结论

基于现有评测数据，CPU 与 NPU 的最大相对误差精度误差为 0.0091%，小于 1% 的精度要求。

运行截图

终端运行截图

推理成功证据

本仓库提供完整的推理脚本，支持 CPU 和 NPU 双平台推理：

# NPU 推理
python3 inference.py --device npu

# CPU 推理
python3 inference.py --device cpu

推理完成后会输出推理结果和耗时，表明模型在 NPU 上推理成功。

模型标签

#+NPU
#+CV
#+图像分类
#+昇腾
#+XCiT