xujiashuai/timm-cv_vitb16_classification_vision-efficient-tuning-lora
模型介绍文件和版本Pull Requests讨论分析

cv_vitb16_classification_vision-efficient-tuning-lora - 昇腾 NPU 适配

1. 模型简介

ViT-B/16 图像分类模型,使用 LoRA 高效微调,100 类分类任务。

  • 原始模型: iic/cv_vitb16_classification_vision-efficient-tuning-lora
  • 框架: PyTorch
  • 任务: 图像分类(100 类,LoRA 微调)

2. 昇腾 NPU 适配结果

指标值
余弦相似度0.999986
平均延迟5.48 ms
参数量~86M
推理精度float16
设备Ascend 910B4

3. 环境要求

组件版本
CANN8.5.1
torch_npu2.9.0.post1
PyTorch2.9.0
Python3.11

4. 快速使用

export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH

python inference.py --device npu:0 --dtype float16

5. 推理输出证据

NPU 推理输出(float16, 224x224):

模型: iic/cv_vitb16_classification_vision-efficient-tuning-lora
设备: npu:0
精度: float16
------------------------------------------------------------
  logits: shape=torch.Size([1, 100])
  logits (first 10): [-0.6260, -2.3730, 0.7427, -0.5493, -1.2832, -0.4919, -0.6758, 0.3826, -0.3154, 0.8086]
  predicted class: 61

  Cosine Similarity (logits): 0.999986

✓ 推理完成
  平均延迟: 5.48 ms

6. CPU 与 NPU 精度对比

指标CPU (float32)NPU (float16)误差
余弦相似度基准0.999986< 0.002%
预测类别6161一致
输出维度[1,100][1,100]一致

7. 模型结构

  • 骨干网络: ViT-B/16(12 个块,768 维,12 个注意力头)
  • LoRA: 在注意力 QKV 投影层上的秩为 10
  • 分类头: Linear(768 → 100)
  • 输入: 224x224 RGB 图像
  • 输出: 100 类 logits

8. 智能适配能力

本适配由 batch-adapter 自动完成。

下载使用量0