基于 ViT-Base 架构的 SigLIP2(Sigmoid Loss for Language Image Pre-Training)多模态视觉模型。SigLIP2 是 SigLIP 的改进版本,使用 Sigmoid 损失函数进行图文对比学习训练,适用于图像特征提取、图文检索、零样本分类等任务。
图像特征提取(多模态对比学习)
PyTorch + open_clip
输入: 图像 RGB,resize 至 256x256,归一化 mean=[0.5,0.5,0.5], std=[0.5,0.5,0.5]
输出: 图像特征向量 [batch_size, 768]
pip install torch torch_npu open_clip_torch safetensors Pillow modelscope
python -c "from modelscope.hub.snapshot_download import snapshot_download; snapshot_download('timm/ViT-B-16-SigLIP2-256')"| 指标 | CPU | NPU |
|---|---|---|
| 推理耗时 | 0.8871s | 0.2051s |
| 加速比 | - | 4.32x |
| 索引 | CPU 输出 | NPU 输出 | 绝对误差 |
|---|---|---|---|
| 0 | 0.021207 | 0.021188 | 1.9e-05 |
| 1 | 0.021605 | 0.021825 | -0.00022 |
| 2 | -0.008145 | -0.008137 | -8e-06 |
| 3 | 0.007805 | 0.007727 | 7.8e-05 |
| 4 | 0.038849 | 0.038822 | 2.7e-05 |
| 5 | -0.025569 | -0.025525 | -4.4e-05 |
| 6 | -0.039601 | -0.039722 | 0.000121 |
| 7 | -0.022865 | -0.022844 | -2.1e-05 |
| 8 | 0.019487 | 0.019444 | 4.3e-05 |
| 9 | -0.014626 | -0.014516 | -0.00011 |
| 指标 | 数值 |
|---|---|
| 最大相对误差 | 0.064429% |
| 余弦相似度 | 0.99999613 |
| NPU 推理加速比 | 4.32x |
NPU 与 CPU 推理结果误差 < 1%,精度对齐验证通过。
基于现有评测数据,CPU 与 NPU 的 余弦相似度 精度误差为 0.0004%,小于 1% 的精度要求。
#+NPU #+CV #+图像特征 #+ViT #+多模态 #+昇腾 #+Ascend910 #+SigLIP2 #+ViT-Base
本 README 由 model-agent 自动生成,基于昇腾 NPU 实际测试数据。