本项目将 timm/vit_base_patch16_224_miil.in21k 图片分类模型适配到华为昇腾 NPU (Ascend910)。ViT-Base-Patch16-224 是基于 Vision Transformer 架构的图像分类模型,使用 MIIL(Multi-Instance Image-Level)标注在 ImageNet-21K(11221 类)上进行预训练。
python inference.py推理结果(单张测试图片):
对单张测试图片进行 CPU 与 NPU 一致性验证:
| 指标 | 数值 |
|---|---|
| max_abs_error | 0.016570 |
| mean_abs_error | 0.001976 |
| relative_error | 0.3029% |
| cosine_similarity | 0.999996 |
| threshold | 1.0% |
| 结果 | PASS |
| 指标 | 数值 |
|---|---|
| avg latency | 5.38 ms |
| min latency | 5.30 ms |
| max latency | 5.46 ms |
| p50 | 5.39 ms |
| p90 | 5.44 ms |
| p95 | 5.45 ms |
| throughput | 185.77 images/sec |
本项目包含单图 smoke consistency 验证,非官方 ImageNet 完整验证集评测。详细指标见第 4 节。
详见 screenshots/self_verification.png。
logs/inference.log — 推理输出日志logs/accuracy.log — 精度一致性验证日志logs/benchmark.log — 性能基准测试日志logs/env_check.log — 环境检查日志snapshot_download 下载,不使用 HuggingFace 直连timm.create_model(pretrained=False) + 本地权重加载,不使用 pretrained=True[batch, 11221]#NPU