XCiT (Cross-Covariance Image Transformer) 是一种基于交叉协方差注意力的图像分类模型。xcit_small_12_p8_224 是 XCiT 系列中的小型模型变体,输入分辨率为 224×224,patch size 为 8。
图像分类(Image Classification)
PyTorch + timm
| 依赖 | 版本要求 |
|---|---|
| Python | >= 3.9 |
| PyTorch | >= 2.0.0 |
| torch_npu | >= 2.0.0 |
| timm | >= 1.0.0 |
| modelscope | >= 1.0.0 |
| 设备 | 平均推理耗时 (ms) | 吞吐量 (samples/sec) |
|---|---|---|
| CPU (Intel Xeon) | 771.89 | 1.30 |
| NPU (Ascend910B) | 11.67 | 85.70 |
NPU 推理速度约为 CPU 的 66 倍。
| 指标 | 值 |
|---|---|
| Logits 最大绝对误差 | 9.124845e-03 |
| Logits 平均绝对误差 | 2.209068e-03 |
| 概率最大绝对误差 | 1.287763e-05 |
| 概率平均绝对误差 | 2.237989e-06 |
| Top-1 一致性 | 100% |
结论:NPU 与 CPU 推理结果误差 < 1%(最大概率误差为 0.0013%)。
基于现有评测数据,CPU 与 NPU 的 最大相对误差 精度误差为 0.0091%,小于 1% 的精度要求。

本仓库提供完整的推理脚本,支持 CPU 和 NPU 双平台推理:
# NPU 推理
python3 inference.py --device npu
# CPU 推理
python3 inference.py --device cpu推理完成后会输出推理结果和耗时,表明模型在 NPU 上推理成功。