xcit_tiny_12_p8_384 昇腾 NPU 适配

模型介绍

XCiT (Cross-Covariance Image Transformer) 是一种基于交叉协方差注意力（Cross-Covariance Attention）的图像分类模型。xcit_tiny_12_p8_384 是 XCiT 系列中的最小模型变体，使用 patch size 为 8 的细粒度分块，输入分辨率为 384×384。

模型架构：XCiT-tiny (12 layers, 4 heads, 192 dim)
输入尺寸：384 × 384
patch size：8 × 8
参数量：约 12M
预训练数据：ImageNet-1k

原始模型地址

ModelScope: timm/xcit_tiny_12_p8_384.fb_dist_in1k
HuggingFace: timm/xcit_tiny_12_p8_384.fb_dist_in1k

任务类型

图像分类（Image Classification）

模型框架

PyTorch + timm

依赖环境

依赖	版本要求
Python	>= 3.9
PyTorch	>= 2.0.0
torch_npu	>= 2.0.0
timm	>= 1.0.0
modelscope	>= 1.0.0

推理结果

设备	平均推理耗时 (ms)	吞吐量 (samples/sec)
CPU (Intel Xeon)	716.71	1.40
NPU (Ascend910B)	13.05	76.65

NPU 推理速度约为 CPU 的 55 倍。

CPU/NPU 精度测试结果

指标	值
Logits 最大绝对误差	4.523420e-02
Logits 平均绝对误差	1.176702e-02
概率最大绝对误差	1.047324e-03
概率平均绝对误差	1.335657e-05
Top-1 一致性	100%

结论：NPU 与 CPU 推理结果误差 < 1%（最大概率误差为 0.1047%）。

精度结论

基于现有评测数据，CPU 与 NPU 的最大相对误差精度误差为 0.0452%，小于 1% 的精度要求。

运行截图

终端运行截图

推理成功证据

本仓库提供完整的推理脚本，支持 CPU 和 NPU 双平台推理：

# NPU 推理
python3 inference.py --device npu

# CPU 推理
python3 inference.py --device cpu

推理完成后会输出推理结果和耗时，表明模型在 NPU 上推理成功。

模型标签

#+NPU
#+CV
#+图像分类
#+昇腾
#+XCiT