vit_small_patch16_dinov3.lvd1689m on Ascend NPU

1. 简介

本文档记录 vit_small_patch16_dinov3.lvd1689m 在 Ascend 910B4 NPU 上的推理适配与验证结果。

模型是基于 DINOv3 自监督方法训练的 Vision Transformer (ViT-Small) 图像特征提取模型，支持 256×256 输入分辨率，输出 384 维特征向量。

适配要点：

全部使用标准 PyTorch 算子（Conv2d, Linear, LayerNorm, GELU, Scaled Dot-Product Attention, RoPE）
零代码修改即可在 NPU 上运行，仅需 model.to("npu:0")
自动利用 NPU 融合算子加速 SDPA、LayerNorm 等热点

2. 验证环境

组件	版本
`timm`	`1.0.27`
`torch`	`2.9.0+cpu`
`torch-npu`	`2.9.0.post1+gitee7ba04`
`CANN`	`8.5.1`
`Python`	`3.11.14`
`OS`	`Linux 5.10.0 (aarch64)`

NPU：1 逻辑卡 (Ascend 910B4)
设备显存：32768 MiB

3. 推理脚本

推理脚本 inference.py 支持以下模式：

单张图片推理

python3 inference.py --image /path/to/image.jpg

随机输入测试

python3 inference.py --random

与 CPU 对比验证

python3 inference.py --image /path/to/image.jpg --npu-only

自定义预处理

脚本默认使用 DINOv3 的标准预处理管线：

Resize 到 256×256 (BICUBIC 插值)
归一化：mean=(0.485, 0.456, 0.406), std=(0.229, 0.224, 0.225)

4. Smoke 验证

python3 inference.py --random

预期输出：

Model: vit_small_patch16_dinov3.lvd1689m
Device: npu:0
Output shape: torch.Size([1, 384])
Latency: ~20-30 ms
Cosine similarity vs CPU: > 0.9999

5. 性能参考

测试条件：单卡 Ascend 910B4，输入 (1, 3, 256, 256)，FP32，重复 100 次取平均。

Batch Size	Latency (ms)	Throughput (samples/s)
1	27.65	36.17
2	26.06	76.74
4	21.49	186.10
8	25.78	310.36

注：小 batch 下算子下发开销占比较高，增大 batch 可显著提升吞吐。

6. 精度评测

与 CPU (FP32) 进行逐元素对比，覆盖 5 组随机种子：

指标	数值
Cosine Similarity	0.999998
Normalized MAE	0.20% (目标 < 1%)
Max Absolute Error	0.003
MSE	6.5e-7

所有种子均 PASS，精度达标。

7. 注意事项

timm 权重下载：默认从 HuggingFace Hub 下载，国内环境建议设置 HF_ENDPOINT=https://hf-mirror.com 以加速下载。
设备映射：npu-smi 显示的物理 NPU ID 与 torch_npu 设备索引可能不一致，请使用 torch.npu.device_count() 确认可用设备。
权重固化：首次下载后建议保存到本地，避免每次运行时重复下载。
FP32 精度：当前使用 FP32 推理。如需更高吞吐可尝试 AMP（需验证 NPU 算子兼容性）。