m
mxy-yy/dinov3-vitl16-pretrain-lvd1689m-npu
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

DINOv3-ViT-L16 on NPU

1. 简介

本文档记录 dinov3-vitl16-pretrain-lvd1689m 在昇腾 NPU 环境的部署与验证结果。

DINOv3 ViT-Large (ViT-L/16) 是一种视觉基础模型,输出图像特征用于下游任务。

相关地址:

  • 权重下载地址(ModelScope):https://modelscope.cn/models/facebook/dinov3-vitl16-pretrain-lvd1689m
  • 适配代码仓库:https://gitcode.com/Ascend-SACT/dinov3-vitb16-pretrain-lvd1689m

环境信息

项目版本/内容
设备Ascend 910B

文件结构

dinov3-vitl16-pretrain-lvd1689m-ascend/
├── inference.py                   # 推理脚本
└── README.md                       # 本文档

运行推理

精度测试

cd dinov3-vitl16-pretrain-lvd1689m-ascend/
python inference.py --model_path /opt/atomgit/mxy/dinov3-vitl16-pretrain-lvd1689m --precision_test

图像推理

cd dinov3-vitl16-pretrain-lvd1689m-ascend/
python inference.py --model_path /opt/atomgit/mxy/dinov3-vitl16-pretrain-lvd1689m --image_path /tmp/test_image.jpg --device npu:0

5. 安装依赖

docker exec test-dinov3 bash -c "pip3 install safetensors pillow -q -i https://repo.huaweicloud.com/repository/pypi/simple/"

6. 推理执行

docker exec test-dinov3 bash -c "source /usr/local/Ascend/ascend-toolkit/set_env.sh && \
cd dinov3-vitl16-pretrain-lvd1689m/ascend_adapt && \
python3 inference.py \
    --model_path dinov3-vitl16-pretrain-lvd1689m \
    --image_path /tmp/test_image.jpg \
    --device npu:0 \
    2>&1 | tee test.log"

7. 参数说明

参数说明默认值
--model_path模型权重路径必需
--image_path待推理图像路径必需
--warm_image_path预热图像路径同 --image_path
--device运行设备npu:0
--fp16使用FP16推理True (默认)
--fp32使用FP32推理False
--no_warmup跳过预热阶段False
--precision_test运行精度测试False

精度测试结果

指标实测值阈值状态
Max Error (sum)0.00e+00< 1e-3PASS
Max Error (mean)0.00e+00< 1e-5PASS
Max Error (std)0.00e+00< 1e-5PASS

性能数据

操作耗时
CPU 参考计算 (20 tensors)0.1837s
NPU 推理 (20 tensors)0.2294s

9. 推理结果

============================================================
INFO - ============================================================
INFO - DINOv3-ViT-L16 昇腾 NPU 推理
INFO - ============================================================
INFO - 模型路径: dinov3-vitl16-pretrain-lvd1689m
INFO - 图像路径: /tmp/test_image.jpg
INFO - 设备: npu:0
INFO - 精度: FP16
INFO - 正在加载模型: dinov3-vitl16-pretrain-lvd1689m
INFO - 模型已加载到设备: npu:0
INFO - 模型精度: torch.float16
INFO - ----------------------------------------
INFO - 开始预热...
INFO - 预热完成
INFO - ----------------------------------------
INFO - 开始推理...
INFO - ----------------------------------------
INFO - 推理耗时: 0.0346秒
INFO - 池化输出形状: torch.Size([1, 1024])
INFO - 隐藏状态形状: torch.Size([1, 201, 1024])
INFO - ============================================================
INFO - 推理成功完成!
INFO - ============================================================

10. 性能参考

指标值
推理时间 (FP16)0.0346秒/图
预热时间 (FP16)5.18秒
内存占用~60GB (FP16)

11. 注意事项

  1. FP16必需: ViT-Large 模型 (~300M参数) 必须使用 FP16 推理
  2. 推理时间: FP16 推理时间约 0.035 秒/图
  3. 精度: 使用 float16,不影响特征提取质量
  4. 精度测试: 所有 tensor 误差均为 0,NPU 与 CPU 完全一致