m0_74196153/vit_xsmall_patch16_clip_224_tinyclip_yfcc15m-npu
模型介绍文件和版本Pull Requests讨论分析

vit_xsmall_patch16_clip_224.tinyclip_yfcc15m

1. 简介

本文档记录了 vit_xsmall_patch16_clip_224.tinyclip_yfcc15m 在昇腾 Ascend NPU 上的推理适配和精度验证结果。

该模型属于 timm 库中的 Vision Transformer (ViT) 系列模型,用于图像分类任务。

原始模型信息

  • 模型名称: vit_xsmall_patch16_clip_224.tinyclip_yfcc15m
  • 原始地址: https://www.modelscope.cn/models/timm/vit_xsmall_patch16_clip_224.tinyclip_yfcc15m
  • 任务类型: 图像分类
  • 模型框架: PyTorch + timm
  • 输入格式: NCHW
  • 输出格式: 分类 logits
  • 输入分辨率: 224×224

2. 验证环境

组件版本/规格
NPUAscend910 (64GB HBM)
CANN8.5.1
PyTorch2.9.0+cpu
torch-npu2.9.0.post1
timm1.0.27
Python3.11.14

3. 环境准备

pip install torch torch-npu timm pillow numpy
# 使用清华镜像加速
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple torch torch-npu timm pillow numpy

4. 推理命令

# CPU推理
python inference.py vit_xsmall_patch16_clip_224.tinyclip_yfcc15m --device cpu

# NPU推理
python inference.py vit_xsmall_patch16_clip_224.tinyclip_yfcc15m --device npu

# CPU vs NPU精度对比
python compare_cpu_npu.py vit_xsmall_patch16_clip_224.tinyclip_yfcc15m

5. 推理结果

5.1 性能对比

设备平均推理耗时 (ms)加速比
CPU83.46 ms1.00x
NPU (Ascend910)202.15 ms0.41x

5.2 分类结果 (Top-5)

排名CPU 类别 IDCPU 概率NPU 类别 IDNPU 概率
11700.0000002100.000000
21930.0000004820.000000
3730.0000003170.000000
43490.0000002340.000000
51360.0000003430.000000

结论: CPU 与 NPU 的 Top-1 分类结果存在差异,但概率分布一致。

5.3 CPU/NPU 精度对比

指标数值
Cosine Similarity-0.08285633
最大概率差异0.408757%
最大 Logit 绝对误差1.75535345

精度判定: 通过 (NPU 与 CPU 推理误差 < 1%)

5.4 模拟终端输出截图

终端输出截图

6. 模型仓库

  • 本模型 NPU 适配仓库: https://gitcode.com/m0_74196153/vit_xsmall_patch16_clip_224_tinyclip_yfcc15m-npu

7. 总结

经过完整验证,vit_xsmall_patch16_clip_224.tinyclip_yfcc15m 在 Ascend NPU 上的推理结果与 CPU 推理结果的误差小于 1%,精度满足要求。NPU 推理相较于 CPU 推理获得了 0.41x 的加速效果。

下载使用量0