将 timm/vit_base_patch32_clip_384.laion2b_ft_in12k_in1k 图片分类模型适配到华为昇腾 NPU(Ascend910),使用 ModelScope snapshot_download 下载权重,timm.create_model(pretrained=False) 加载本地权重,无需 HuggingFace 直连。该模型基于 CLIP ViT-Base-Patch32,输入分辨率 384,经 LAION-2B 预训练后在 ImageNet-12k 上微调。
| 项目 | 值 |
|---|---|
| 设备 | Ascend910 |
| PyTorch | torch + torch_npu |
| 模型来源 | ModelScope: timm/vit_base_patch32_clip_384.laion2b_ft_in12k_in1k |
| 权重格式 | model.safetensors |
| 输入分辨率 | 384x384 |
pip install -r requirements.txt
python inference.py推理结果(NPU):
对单张测试图片进行 CPU 与 NPU 一致性验证:
| 指标 | 数值 |
|---|---|
| max_abs_error | 0.020799 |
| mean_abs_error | 0.003534 |
| relative_error | 0.3862% |
| cosine_similarity | 0.999994 |
| threshold | 1.0% |
| 结果 | PASS |
| 指标 | 数值 |
|---|---|
| Avg latency | 6.39 ms |
| Min latency | 6.31 ms |
| Max latency | 6.46 ms |
| P50 latency | 6.39 ms |
| P90 latency | 6.46 ms |
| P95 latency | 6.46 ms |
| Throughput | 156.53 images/sec |
本项目包含单图 smoke consistency 验证,非官方 ImageNet 完整验证集评测。详细指标见第 4 节。
见 screenshots/self_verification.png。
logs/inference.log - 推理结果日志logs/accuracy.log - 精度验证日志logs/benchmark.log - 性能基准测试日志#NPU #Ascend #Ascend910 #timm #vit #CLIP #image-classification