本文档记录了 timm/flexivit_large.1200ep_in1k 模型在华为昇腾 NPU (Ascend910) 上的适配过程。FlexiViT Large 是基于 Vision Transformer 架构的灵活 ViT 模型,在 ImageNet-1k 上以 1200 epoch 训练。
timm/flexivit_large.1200ep_in1k)timm.create_model(pretrained=False) + 本地 safetensors 权重# 安装依赖
pip install -r requirements.txt
# 运行推理
python inference.py推理结果 (单张测试图片):
| 排名 | 类别 | 概率 |
|---|---|---|
| Top-1 | class_654 | 0.8865 |
| Top-2 | class_656 | 0.0165 |
| Top-3 | class_757 | 0.0027 |
| Top-4 | class_675 | 0.0027 |
| Top-5 | class_734 | 0.0022 |
对单张测试图片进行 CPU 与 NPU 一致性验证:
| 指标 | 数值 |
|---|---|
| max_abs_error | 0.041845 |
| mean_abs_error | 0.002475 |
| relative_error | 0.1855% |
| cosine_similarity | 0.999997 |
| threshold | 1.0% |
| 结果 | PASS |
| 指标 | 数值 |
|---|---|
| 平均延迟 | 10.45 ms |
| 最小延迟 | 10.12 ms |
| 最大延迟 | 10.63 ms |
| P50 延迟 | 10.51 ms |
| P90 延迟 | 10.63 ms |
| P95 延迟 | 10.63 ms |
| 吞吐量 | 95.72 images/sec |
测试条件: warmup 2 次 + 正式 10 次, batch_size=1, 输入 240x240
本项目包含单图 smoke consistency 验证,非官方 ImageNet 完整验证集评测。详细指标见第 4 节。
详见 screenshots/self_verification.png
logs/inference.log - 推理结果logs/accuracy.log - 精度验证结果logs/benchmark.log - 性能基准测试结果logs/env_check.log - 环境检查结果timm.data.resolve_model_data_config 自动获取正确的数据预处理配置