g
gcw_C8PI9e90/xcit_tiny_12_p8_384-npu
模型介绍文件和版本Pull Requests讨论分析

xcit_tiny_12_p8_384 昇腾 NPU 适配

模型介绍

XCiT (Cross-Covariance Image Transformer) 是一种基于交叉协方差注意力(Cross-Covariance Attention)的图像分类模型。xcit_tiny_12_p8_384 是 XCiT 系列中的最小模型变体,使用 patch size 为 8 的细粒度分块,输入分辨率为 384×384。

  • 模型架构:XCiT-tiny (12 layers, 4 heads, 192 dim)
  • 输入尺寸:384 × 384
  • patch size:8 × 8
  • 参数量:约 12M
  • 预训练数据:ImageNet-1k

原始模型地址

  • ModelScope: timm/xcit_tiny_12_p8_384.fb_dist_in1k
  • HuggingFace: timm/xcit_tiny_12_p8_384.fb_dist_in1k

任务类型

图像分类(Image Classification)

模型框架

PyTorch + timm

依赖环境

依赖版本要求
Python>= 3.9
PyTorch>= 2.0.0
torch_npu>= 2.0.0
timm>= 1.0.0
modelscope>= 1.0.0

推理结果

设备平均推理耗时 (ms)吞吐量 (samples/sec)
CPU (Intel Xeon)716.711.40
NPU (Ascend910B)13.0576.65

NPU 推理速度约为 CPU 的 55 倍。

CPU/NPU 精度测试结果

指标值
Logits 最大绝对误差4.523420e-02
Logits 平均绝对误差1.176702e-02
概率最大绝对误差1.047324e-03
概率平均绝对误差1.335657e-05
Top-1 一致性100%

结论:NPU 与 CPU 推理结果误差 < 1%(最大概率误差为 0.1047%)。

精度结论

基于现有评测数据,CPU 与 NPU 的 最大相对误差 精度误差为 0.0452%,小于 1% 的精度要求。

运行截图

终端运行截图

推理成功证据

本仓库提供完整的推理脚本,支持 CPU 和 NPU 双平台推理:

# NPU 推理
python3 inference.py --device npu

# CPU 推理
python3 inference.py --device cpu

推理完成后会输出推理结果和耗时,表明模型在 NPU 上推理成功。

模型标签

  • #+NPU
  • #+CV
  • #+图像分类
  • #+昇腾
  • #+XCiT
下载使用量0