DeiT-Base (Data-efficient Image Transformers) 是 Facebook 提出的高效视觉 Transformer,基于 ViT-Base 架构,在 ImageNet-1K 上使用知识蒸馏训练。本项目将 timm 版本的 DeiT-Base 适配到华为昇腾 NPU (Ascend910) 上运行。
pip install -r requirements.txt
python inference.py推理结果 (NPU Top-5):
日志保存在 logs/inference.log。
对单张测试图片进行 CPU 与 NPU 一致性验证:
| 指标 | 数值 |
|---|---|
| max_abs_error | 0.018397 |
| mean_abs_error | 0.002720 |
| relative_error | 0.7162% |
| cosine_similarity | 0.999980 |
| threshold | 1.0% |
| 结果 | PASS |
| 指标 | 数值 |
|---|---|
| avg_latency | 5.26 ms |
| min_latency | 5.18 ms |
| max_latency | 5.42 ms |
| p50_latency | 5.24 ms |
| p90_latency | 5.42 ms |
| p95_latency | 5.42 ms |
| throughput | 190.27 images/sec |
本项目包含单图 smoke consistency 验证,非官方 ImageNet 完整验证集评测。详细指标见第 4 节。
详见 screenshots/self_verification.png。
logs/inference.log - 推理输出logs/accuracy.log - 精度验证logs/benchmark.log - 性能测试logs/env_check.log - 环境检查pretrained=Truetimm.data.resolve_model_data_config + create_transform 自动获取预处理配置