XCiT (Cross-Covariance Image Transformer) 是一种基于交叉协方差注意力(Cross-Covariance Attention)的图像分类模型。xcit_tiny_12_p8_384 是 XCiT 系列中的最小模型变体,使用 patch size 为 8 的细粒度分块,输入分辨率为 384×384。
图像分类(Image Classification)
PyTorch + timm
| 依赖 | 版本要求 |
|---|---|
| Python | >= 3.9 |
| PyTorch | >= 2.0.0 |
| torch_npu | >= 2.0.0 |
| timm | >= 1.0.0 |
| modelscope | >= 1.0.0 |
| 设备 | 平均推理耗时 (ms) | 吞吐量 (samples/sec) |
|---|---|---|
| CPU (Intel Xeon) | 716.71 | 1.40 |
| NPU (Ascend910B) | 13.05 | 76.65 |
NPU 推理速度约为 CPU 的 55 倍。
| 指标 | 值 |
|---|---|
| Logits 最大绝对误差 | 4.523420e-02 |
| Logits 平均绝对误差 | 1.176702e-02 |
| 概率最大绝对误差 | 1.047324e-03 |
| 概率平均绝对误差 | 1.335657e-05 |
| Top-1 一致性 | 100% |
结论:NPU 与 CPU 推理结果误差 < 1%(最大概率误差为 0.1047%)。
基于现有评测数据,CPU 与 NPU 的 最大相对误差 精度误差为 0.0452%,小于 1% 的精度要求。

本仓库提供完整的推理脚本,支持 CPU 和 NPU 双平台推理:
# NPU 推理
python3 inference.py --device npu
# CPU 推理
python3 inference.py --device cpu推理完成后会输出推理结果和耗时,表明模型在 NPU 上推理成功。