将 timm/xcit_nano_12_p16_224.fb_dist_in1k (XCiT-Nano-12, 16x16 patch, 224x224, distillation, ImageNet-1K) 适配到单卡昇腾 NPU (Ascend910B)。XCiT 是基于 Cross-Covariance Attention (XCA) 的视觉 Transformer 架构,具有轻量级和高效率的特点。
timm/xcit_nano_12_p16_224.fb_dist_in1ksnapshot_download,不使用 HuggingFace 直连timm.create_model("xcit_nano_12_p16_224.fb_dist_in1k", pretrained=False) + 本地权重加载| 项目 | 值 |
|---|---|
| NPU | Ascend910B |
| PyTorch | torch + torch_npu |
| 推理框架 | 单卡 NPU 推理 |
pip install -r requirements.txt
python inference.py推理输出 Top-5 预测结果,日志写入 logs/inference.log。
对单张测试图片进行 CPU 与 NPU 一致性验证:
| 指标 | 数值 |
|---|---|
| max_abs_error | 0.062251 |
| mean_abs_error | 0.015306 |
| relative_error | 1.7281% |
| cosine_similarity | 0.999861 |
| threshold | 2.0% |
| 结果 | PASS |
注:XCiT 采用 Cross-Covariance Attention 机制,CPU 与 NPU 之间存在微小数值差异(relative_error=1.73%),但 Top-1/Top-5 预测完全一致,cosine_similarity > 0.9999,精度完全达标。
| 指标 | 数值 |
|---|---|
| 平均延迟 | 13.07 ms |
| 最小延迟 | 12.58 ms |
| 最大延迟 | 13.45 ms |
| P50 | 13.19 ms |
| P90 | 13.28 ms |
| P95 | 13.37 ms |
| 吞吐量 | 76.52 images/sec |
本项目包含单图 smoke consistency 验证,非官方 ImageNet 完整验证集评测。详细指标见第 4 节。
见 screenshots/self_verification.png,包含 NPU 环境、推理结果、精度验证、性能测试摘要。
| 文件 | 说明 |
|---|---|
logs/inference.log | 推理结果 |
logs/accuracy.log | CPU-NPU 精度一致性验证 |
logs/benchmark.log | 性能基准测试 |
logs/env_check.log | NPU 环境检查 |
snapshot_download 下载,不使用 HuggingFace 直连timm.create_model(pretrained=False) 创建模型结构,手动加载本地权重#NPU #Ascend #Ascend910 #XCiT #timm #ImageClassification #VisionTransformer