luckymitty/vit_base_patch16_224.dino-ascend-NPU

vit_base_patch16_224.dino（昇腾NPU适配版）

本仓库包含 vit_base_patch16_224.dino 的昇腾NPU适配版本，这是一个采用DINO自监督方法训练的视觉Transformer（ViT）模型。

模型概述

vit_base_patch16_224.dino 是一个视觉Transformer（ViT） 图像特征提取模型，通过DINO自监督学习方法在ImageNet-1k数据集上训练而成。

本报告记录了该模型在华为昇腾NPU（Ascend910） 上的适配、验证及性能评估过程。

模型信息

属性	详情
模型名称	vit_base_patch16_224.dino
模型类型	视觉Transformer（ViT）图像特征提取
源仓库	hf_mirrors/timm/vit_base_patch16_224.dino
上游来源	timm/vit_base_patch16_224.dino
框架	PyTorch + timm
参数数量	85.8 M
GMACs	16.9
激活值（M）	16.5
图像尺寸	224 x 224
补丁大小	16 x 16
特征维度	768
池化方式	CLS Token
预训练方法	DINO（自监督）
预训练数据集	ImageNet-1k
许可证	Apache 2.0

适配环境

硬件环境

项目	配置
NPU型号	Ascend910
NPU数量	1卡
NPU内存	64 GB HBM
CPU架构	aarch64

软件环境

项目	版本
操作系统	openEuler / Ubuntu (aarch64)
Python	3.11.14
PyTorch	2.9.0+cpu
torch_npu	2.9.0.post1
timm	1.0.27
numpy	1.26.4
Pillow	12.2.0

适配过程

1. 代码分析

对模型仓库进行全面分析：

# Search for CUDA-specific APIs
rg -n "torch\.cuda" . || echo "No CUDA-specific API found"

# Search for CUDA kernel files
find . -name "*.cu" -o -name "*.cuh" | head -20 || echo "No CUDA kernel files"

分析结论：

该模型是标准的 HuggingFace timm 模型仓库，无自定义 Python 代码
无 .cu / .cuh CUDA 内核文件
无 torch.cuda.* 或其他 CUDA 特定 API 调用
适配类型：零手动修改适配

2. 自动迁移注入

在推理脚本顶部注入 transfer_to_npu：

import torch_npu
from torch_npu.contrib import transfer_to_npu

transfer_to_npu会自动完成以下映射：

原始 CUDA API	自动映射目标
`torch.cuda.is_available()`	返回 `True`（当 NPU 可用时）
`torch.Tensor.cuda()`	`torch.Tensor.npu()`
`torch.device('cuda')`	`torch.device('npu')`
`torch.cuda.*` 系列 API	`torch.npu.*` 系列 API

3. 依赖安装

# Load CANN environment
source /usr/local/Ascend/ascend-toolkit/set_env.sh

# Install dependencies
pip install timm numpy Pillow

验证结果

精度验证

我们使用随机初始化的权重（结构验证）和多个随机种子，对CPU和Ascend NPU上的模型输出进行了比较。

对比指标

指标	数值
最大绝对误差	1.16e-03
平均绝对误差	2.40e-04
最大相对误差	1.48e-01
平均相对误差	1.39e-03
余弦相似度	1.00000000

多种子稳定性

种子	最大绝对误差	余弦相似度
42	1.16e-03	1.00000000
123	1.20e-03	0.99999992
456	8.56e-04	0.99999992
789	9.14e-04	0.99999992
2024	9.36e-04	0.99999992

结论：CPU和NPU的输出在数值上是一致的。绝对误差在预期的浮点精度容差范围内（< 2e-3）。该模型已通过Ascend NPU部署验证。

功能验证

验证项	预期结果	实际结果	状态
模型加载	成功加载	成功	通过
设备迁移	模型迁移至`npu:0`	`npu:0`	通过
前向推理 (`model()`)	输出形状`(1, 768)`	`(1, 768)`	通过
特征提取 (`forward_features`)	输出形状`(1, 197, 768)`	`(1, 197, 768)`	通过
数据类型	`torch.float32`	`torch.float32`	通过
程序退出码	0	0	通过

性能测试

测试配置：

设备：Ascend910（单卡）
输入尺寸：224 x 224
批大小：1
预热轮次：3
测试轮次：10
精度：FP32

指标	数值
平均延迟	~6.0 ms
吞吐量	~170 samples/sec
首 token 延迟	N/A (CNN/ViT model)

注意：这是一个CNN/ViT视觉模型，没有自回归生成过程，因此不存在首token延迟指标。

精度说明

Ascend910 不支持 FP64（双精度）；torch_npu 会自动降级为 FP32，此模型的推理不受影响
该模型输出的图像特征向量适用于下游检索和聚类任务；精度偏差在合理范围内

使用指南

快速开始

# 1. Load CANN environment
source /usr/local/Ascend/ascend-toolkit/set_env.sh

# 2. Set NPU visible device
export ASCEND_RT_VISIBLE_DEVICES=0

# 3. Run inference
python3 npu_inference.py

图像特征提取

import torch
import torch_npu
from torch_npu.contrib import transfer_to_npu
from PIL import Image
import timm

# Load model
model = timm.create_model(
    'hf_mirrors/timm/vit_base_patch16_224.dino',
    pretrained=True,
    num_classes=0,
)
model = model.eval().to('npu:0')

# Get preprocessing
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

# Load image and infer
img = Image.open('your_image.jpg')
input_tensor = transforms(img).unsqueeze(0).to('npu:0')

with torch.no_grad():
    features = model(input_tensor)  # (1, 768)

print(f"Feature shape: {features.shape}")

获取未池化特征

with torch.no_grad():
    # (1, 197, 768) — includes CLS token
    unpooled = model.forward_features(input_tensor)

    # Take only CLS token features
    cls_token = unpooled[:, 0]  # (1, 768)

文件

文件	描述
`config.json`	模型配置文件
`npu_inference.py`	Ascend NPU 推理脚本
`verify_accuracy.py`	CPU 与 NPU 精度对比脚本
`accuracy_report.json`	详细精度指标 JSON 文件
`requirements.txt`	Python 依赖项
`README.md`	本文档

许可证

Apache-2.0

致谢

原始模型来自 timm
DINO 方法由 facebookresearch/dino 提供
Ascend NPU 适配由 Ascend-SACT 完成

由华为 Ascend NPU 提供支持

vit_base_patch16_224.dino（昇腾NPU适配版）

本仓库包含 vit_base_patch16_224.dino 的昇腾NPU适配版本，这是一个采用DINO自监督方法训练的视觉Transformer（ViT）模型。

模型概述

vit_base_patch16_224.dino 是一个视觉Transformer（ViT） 图像特征提取模型，通过DINO自监督学习方法在ImageNet-1k数据集上训练而成。

本报告记录了该模型在华为昇腾NPU（Ascend910） 上的适配、验证及性能评估过程。

模型信息

属性	详情
模型名称	vit_base_patch16_224.dino
模型类型	视觉Transformer（ViT）图像特征提取
源仓库	hf_mirrors/timm/vit_base_patch16_224.dino
上游来源	timm/vit_base_patch16_224.dino
框架	PyTorch + timm
参数数量	85.8 M
GMACs	16.9
激活值（M）	16.5
图像尺寸	224 x 224
补丁大小	16 x 16
特征维度	768
池化方式	CLS Token
预训练方法	DINO（自监督）
预训练数据集	ImageNet-1k
许可证	Apache 2.0

适配环境

硬件环境

项目	配置
NPU型号	Ascend910
NPU数量	1卡
NPU内存	64 GB HBM
CPU架构	aarch64

软件环境

项目	版本
操作系统	openEuler / Ubuntu (aarch64)
Python	3.11.14
PyTorch	2.9.0+cpu
torch_npu	2.9.0.post1
timm	1.0.27
numpy	1.26.4
Pillow	12.2.0

适配过程

1. 代码分析

对模型仓库进行全面分析：

# Search for CUDA-specific APIs
rg -n "torch\.cuda" . || echo "No CUDA-specific API found"

# Search for CUDA kernel files
find . -name "*.cu" -o -name "*.cuh" | head -20 || echo "No CUDA kernel files"

分析结论：

该模型是标准的 HuggingFace timm 模型仓库，无自定义 Python 代码
无 .cu / .cuh CUDA 内核文件
无 torch.cuda.* 或其他 CUDA 特定 API 调用
适配类型：零手动修改适配

2. 自动迁移注入

在推理脚本顶部注入 transfer_to_npu：

import torch_npu
from torch_npu.contrib import transfer_to_npu

transfer_to_npu会自动完成以下映射：

原始 CUDA API	自动映射目标
`torch.cuda.is_available()`	返回 `True`（当 NPU 可用时）
`torch.Tensor.cuda()`	`torch.Tensor.npu()`
`torch.device('cuda')`	`torch.device('npu')`
`torch.cuda.*` 系列 API	`torch.npu.*` 系列 API

3. 依赖安装

# Load CANN environment
source /usr/local/Ascend/ascend-toolkit/set_env.sh

# Install dependencies
pip install timm numpy Pillow

验证结果

精度验证

我们使用随机初始化的权重（结构验证）和多个随机种子，对CPU和Ascend NPU上的模型输出进行了比较。

对比指标

指标	数值
最大绝对误差	1.16e-03
平均绝对误差	2.40e-04
最大相对误差	1.48e-01
平均相对误差	1.39e-03
余弦相似度	1.00000000

多种子稳定性

种子	最大绝对误差	余弦相似度
42	1.16e-03	1.00000000
123	1.20e-03	0.99999992
456	8.56e-04	0.99999992
789	9.14e-04	0.99999992
2024	9.36e-04	0.99999992

结论：CPU和NPU的输出在数值上是一致的。绝对误差在预期的浮点精度容差范围内（< 2e-3）。该模型已通过Ascend NPU部署验证。

功能验证

验证项	预期结果	实际结果	状态
模型加载	成功加载	成功	通过
设备迁移	模型迁移至`npu:0`	`npu:0`	通过
前向推理 (`model()`)	输出形状`(1, 768)`	`(1, 768)`	通过
特征提取 (`forward_features`)	输出形状`(1, 197, 768)`	`(1, 197, 768)`	通过
数据类型	`torch.float32`	`torch.float32`	通过
程序退出码	0	0	通过

性能测试

测试配置：

设备：Ascend910（单卡）
输入尺寸：224 x 224
批大小：1
预热轮次：3
测试轮次：10
精度：FP32

指标	数值
平均延迟	~6.0 ms
吞吐量	~170 samples/sec
首 token 延迟	N/A (CNN/ViT model)

注意：这是一个CNN/ViT视觉模型，没有自回归生成过程，因此不存在首token延迟指标。

精度说明

Ascend910 不支持 FP64（双精度）；torch_npu 会自动降级为 FP32，此模型的推理不受影响
该模型输出的图像特征向量适用于下游检索和聚类任务；精度偏差在合理范围内

使用指南

快速开始

# 1. Load CANN environment
source /usr/local/Ascend/ascend-toolkit/set_env.sh

# 2. Set NPU visible device
export ASCEND_RT_VISIBLE_DEVICES=0

# 3. Run inference
python3 npu_inference.py

图像特征提取

import torch
import torch_npu
from torch_npu.contrib import transfer_to_npu
from PIL import Image
import timm

# Load model
model = timm.create_model(
    'hf_mirrors/timm/vit_base_patch16_224.dino',
    pretrained=True,
    num_classes=0,
)
model = model.eval().to('npu:0')

# Get preprocessing
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

# Load image and infer
img = Image.open('your_image.jpg')
input_tensor = transforms(img).unsqueeze(0).to('npu:0')

with torch.no_grad():
    features = model(input_tensor)  # (1, 768)

print(f"Feature shape: {features.shape}")

获取未池化特征

with torch.no_grad():
    # (1, 197, 768) — includes CLS token
    unpooled = model.forward_features(input_tensor)

    # Take only CLS token features
    cls_token = unpooled[:, 0]  # (1, 768)

文件

文件	描述
`config.json`	模型配置文件
`npu_inference.py`	Ascend NPU 推理脚本
`verify_accuracy.py`	CPU 与 NPU 精度对比脚本
`accuracy_report.json`	详细精度指标 JSON 文件
`requirements.txt`	Python 依赖项
`README.md`	本文档

许可证

Apache-2.0

致谢

原始模型来自 timm
DINO 方法由 facebookresearch/dino 提供
Ascend NPU 适配由 Ascend-SACT 完成

由华为 Ascend NPU 提供支持

vit_base_patch16_224.dino（昇腾NPU适配版）

模型概述

模型信息

相关论文

适配环境

硬件环境

软件环境

适配过程

1. 代码分析

2. 自动迁移注入

3. 依赖安装

验证结果

精度验证

对比指标

多种子稳定性

功能验证

性能测试

精度说明

使用指南

快速开始

图像特征提取

获取未池化特征

文件

许可证

致谢

vit_base_patch16_224.dino（昇腾NPU适配版）

模型概述

模型信息

相关论文

适配环境

硬件环境

软件环境

适配过程

1. 代码分析

2. 自动迁移注入

3. 依赖安装

验证结果

精度验证

对比指标

多种子稳定性

功能验证

性能测试

精度说明

使用指南

快速开始

图像特征提取

获取未池化特征

文件

许可证

致谢