本项目将 timm/xcit_small_24_p8_224.fb_dist_in1k 图片分类模型适配到华为昇腾 NPU (Ascend910)。XCiT(Cross-Covariance Image Transformer)是一种基于跨协方差注意力机制的视觉 Transformer,在 ImageNet-1K 上使用知识蒸馏进行训练。
python inference.py推理结果(单张测试图片):
对单张测试图片进行 CPU 与 NPU 一致性验证:
| 指标 | 数值 |
|---|---|
| max_abs_error | 0.032654 |
| mean_abs_error | 0.003504 |
| relative_error | 0.5595% |
| cosine_similarity | 0.999990 |
| threshold | 1.0% |
| 结果 | PASS |
| 指标 | 数值 |
|---|---|
| avg latency | 21.94 ms |
| min latency | 21.15 ms |
| max latency | 23.42 ms |
| p50 | 21.59 ms |
| p90 | 23.15 ms |
| p95 | 23.28 ms |
| throughput | 45.58 images/sec |
本项目包含单图 smoke consistency 验证,非官方 ImageNet 完整验证集评测。详细指标见第 4 节。
详见 screenshots/self_verification.png。
logs/inference.log — 推理输出日志logs/accuracy.log — 精度一致性验证日志logs/benchmark.log — 性能基准测试日志logs/env_check.log — 环境检查日志snapshot_download 下载,不使用 HuggingFace 直连timm.create_model(pretrained=False) + 本地权重加载,不使用 pretrained=True#NPU