SwinV2 Large是一个大型分层视觉Transformer,采用移位窗口机制,在ImageNet-22k上进行训练,并在ImageNet-1k上进行微调。它采用渐进式窗口大小从12增加到24,分辨率从192提升到384的策略。
| 指标 | 数值 |
|---|---|
| 余弦相似度 | 0.999992 |
| 最大绝对误差 | 0.006605 |
| 设备 | 平均延迟 |
|---|---|
| NPU(npu:0) | 74.61 ms |
| 指标 | CPU | NPU |
|---|---|---|
| 输出形状 | [1, 1000] | [1, 1000] |
| 预测结果 | 111 | 111 |
source setup_env.sh
HF_ENDPOINT=https://hf-mirror.com python3 inference.py --device npu:0