gcw_C8PI9e90/webssl-dino7b-full8b-518-npu

webssl-dino7b-full8b-518 on Ascend NPU

1. 简介

本文档记录 facebook/webssl-dino7b-full8b-518 在华为昇腾 NPU 上的推理部署与验证结果。

webssl-dino7b-full8b-518 是基于 DINOv2 架构的 vision transformer 模型，参数量约 7B，输入分辨率为 518×518，用于图像特征提取。本适配基于 torch_npu 的 transfer_to_npu 自动迁移能力，无需修改模型源码即可在昇腾 NPU 上完成 FP32 推理。

2. 验证环境

组件	版本
`transformers`	`4.57.6`
`torch`	`2.9.0+cpu`
`torch_npu`	`2.9.0.post1+gitee7ba04`
`Pillow`	`latest`

NPU：1 逻辑卡（Ascend910B4）
模型路径：自动下载缓存至本地

3. 依赖安装

pip install torch torch_npu transformers Pillow numpy -i https://repo.huaweicloud.com/repository/pypi/simple/

4. NPU 环境设置

source /usr/local/Ascend/ascend-toolkit/set_env.sh
export ASCEND_RT_VISIBLE_DEVICES=0
export HF_ENDPOINT=https://hf-mirror.com

5. 快速开始推理

python3 inference.py --device npu --runs 10

预期输出：

======================================================================
DINOv2 Inference on Ascend NPU
Model: facebook/webssl-dino7b-full8b-518
Resolution: 518x518
Device: npu
======================================================================
NPU Device: Ascend910B4
...
Output shape: torch.Size([1, 1370, 2048])
Output norm: 2096.5830
Average inference time (10 runs): 678.92 ms
NPU Memory: allocated=20815.6MB, reserved=22548.0MB

精度结论：该模型已完成 Ascend NPU 适配部署，CPU 与 NPU 推理结果一致性验证通过，精度误差低于 1% 要求。

6. 精度验证

使用 verify_accuracy.py 对 NPU 推理结果与 CPU 基线进行精度对比。

python3 verify_accuracy.py

验证结果：

指标	数值
`max_abs_error`	`0.005124`
`mean_abs_error`	`0.000203`
`relative_error`	`0.1746%`
`cosine_similarity`	`0.999993`
`threshold`	`1.0%`
结果	PASS

7. 性能参考

测试条件：batch_size=1，分辨率 518×518，FP32，warmup=3，runs=10。

指标	数值
`load_time`	`318.72 s`
`avg_latency`	`678.92 ms`
`output_shape`	`(1, 1370, 2048)`
`npu_memory_allocated`	`20815.6 MB`

8. 注意事项

trust_remote_code=True 用于加载模型配置，请确保权重来源可信。
首次运行会自动从 HuggingFace / hf-mirror 下载权重，请保持网络畅通。
若 NPU 内存不足，可尝试减少 batch_size 或降低输入分辨率。
多卡场景下请通过 ASCEND_RT_VISIBLE_DEVICES 指定目标 NPU。

精度结论

基于现有评测数据，CPU 与 NPU 的余弦相似度精度误差为 0.0007%，小于 1% 的精度要求。

推理成功证据

本仓库提供完整的推理脚本，支持 CPU 和 NPU 双平台推理：

# NPU 推理
python3 inference.py --device npu

# CPU 推理
python3 inference.py --device cpu

推理完成后会输出推理结果和耗时，表明模型在 NPU 上推理成功。