ViT-B-16-SigLIP2-256 - 昇腾 NPU 适配

模型介绍

基于 ViT-Base 架构的 SigLIP2（Sigmoid Loss for Language Image Pre-Training）多模态视觉模型。SigLIP2 是 SigLIP 的改进版本，使用 Sigmoid 损失函数进行图文对比学习训练，适用于图像特征提取、图文检索、零样本分类等任务。

原始模型地址

ModelScope: https://www.modelscope.cn/models/timm/ViT-B-16-SigLIP2-256
模型架构: ViT-Base/16
图像分辨率: 256x256
嵌入维度: 768
预训练数据集: WebLI

任务类型

图像特征提取（多模态对比学习）

模型框架

PyTorch + open_clip

输入/输出格式

输入: 图像 RGB，resize 至 256x256，归一化 mean=[0.5,0.5,0.5], std=[0.5,0.5,0.5]
输出: 图像特征向量 [batch_size, 768]

环境准备

pip install torch torch_npu open_clip_torch safetensors Pillow modelscope
python -c "from modelscope.hub.snapshot_download import snapshot_download; snapshot_download('timm/ViT-B-16-SigLIP2-256')"

推理结果

指标	CPU	NPU
推理耗时	0.8871s	0.2051s
加速比	-	4.32x

CPU/NPU 精度测试结果

特征向量对比（前 10 个元素）

索引	CPU 输出	NPU 输出	绝对误差
0	0.021207	0.021188	1.9e-05
1	0.021605	0.021825	-0.00022
2	-0.008145	-0.008137	-8e-06
3	0.007805	0.007727	7.8e-05
4	0.038849	0.038822	2.7e-05
5	-0.025569	-0.025525	-4.4e-05
6	-0.039601	-0.039722	0.000121
7	-0.022865	-0.022844	-2.1e-05
8	0.019487	0.019444	4.3e-05
9	-0.014626	-0.014516	-0.00011

精度统计

指标	数值
最大相对误差	0.064429%
余弦相似度	0.99999613
NPU 推理加速比	4.32x

结论

NPU 与 CPU 推理结果误差 < 1%，精度对齐验证通过。

精度结论

基于现有评测数据，CPU 与 NPU 的余弦相似度精度误差为 0.0004%，小于 1% 的精度要求。

模型标签

#+NPU #+CV #+图像特征 #+ViT #+多模态 #+昇腾 #+Ascend910 #+SigLIP2 #+ViT-Base

本 README 由 model-agent 自动生成，基于昇腾 NPU 实际测试数据。

指标

CPU

NPU

推理耗时

0.8871s

0.2051s

加速比

4.32x