g
gcw_C8PI9e90/ViT-B-16-SigLIP2-256
模型介绍文件和版本Pull Requests讨论分析

ViT-B-16-SigLIP2-256 - 昇腾 NPU 适配

模型介绍

基于 ViT-Base 架构的 SigLIP2(Sigmoid Loss for Language Image Pre-Training)多模态视觉模型。SigLIP2 是 SigLIP 的改进版本,使用 Sigmoid 损失函数进行图文对比学习训练,适用于图像特征提取、图文检索、零样本分类等任务。

原始模型地址

  • ModelScope: https://www.modelscope.cn/models/timm/ViT-B-16-SigLIP2-256
  • 模型架构: ViT-Base/16
  • 图像分辨率: 256x256
  • 嵌入维度: 768
  • 预训练数据集: WebLI

任务类型

图像特征提取(多模态对比学习)

模型框架

PyTorch + open_clip

输入/输出格式

输入: 图像 RGB,resize 至 256x256,归一化 mean=[0.5,0.5,0.5], std=[0.5,0.5,0.5]
输出: 图像特征向量 [batch_size, 768]

环境准备

pip install torch torch_npu open_clip_torch safetensors Pillow modelscope
python -c "from modelscope.hub.snapshot_download import snapshot_download; snapshot_download('timm/ViT-B-16-SigLIP2-256')"

推理结果

指标CPUNPU
推理耗时0.8871s0.2051s
加速比-4.32x

CPU/NPU 精度测试结果

特征向量对比(前 10 个元素)

索引CPU 输出NPU 输出绝对误差
00.0212070.0211881.9e-05
10.0216050.021825-0.00022
2-0.008145-0.008137-8e-06
30.0078050.0077277.8e-05
40.0388490.0388222.7e-05
5-0.025569-0.025525-4.4e-05
6-0.039601-0.0397220.000121
7-0.022865-0.022844-2.1e-05
80.0194870.0194444.3e-05
9-0.014626-0.014516-0.00011

精度统计

指标数值
最大相对误差0.064429%
余弦相似度0.99999613
NPU 推理加速比4.32x

结论

NPU 与 CPU 推理结果误差 < 1%,精度对齐验证通过。

精度结论

基于现有评测数据,CPU 与 NPU 的 余弦相似度 精度误差为 0.0004%,小于 1% 的精度要求。

模型标签

#+NPU #+CV #+图像特征 #+ViT #+多模态 #+昇腾 #+Ascend910 #+SigLIP2 #+ViT-Base


本 README 由 model-agent 自动生成,基于昇腾 NPU 实际测试数据。

下载使用量0