基于 ViT-Large (L) 架构的 SigLIP(Sigmoid Loss for Language Image Pre-Training)多模态视觉模型。该模型使用 Sigmoid 损失函数进行图文对比学习训练,适用于图像特征提取、图文检索、零样本分类等任务。
该模型权重基于 open_clip 预训练权重,原始训练数据集为 WebLI。
图像特征提取(多模态对比学习)
PyTorch + open_clip
torch>=2.0.0
torch_npu>=2.0.0
open_clip_torch>=2.24.0
safetensors>=0.4.0
Pillow>=10.0.0该模型为标准 ViT 架构,基于 open_clip 加载。NPU 适配过程无需对模型代码做任何修改。
| 索引 | CPU 输出 | NPU 输出 | 绝对误差 |
|---|---|---|---|
| 0 | 0.03282108 | 0.03408474 | 0.00126366 |
| 1 | -0.01226921 | -0.01104206 | 0.00122715 |
| 2 | 0.01871379 | 0.01792391 | 0.00078989 |
| 3 | -0.00065100 | -0.00063619 | 0.00001481 |
| 4 | -0.00593286 | -0.00498932 | 0.00094354 |
| 5 | -0.00432167 | -0.00358491 | 0.00073676 |
| 6 | -0.00116704 | -0.00078028 | 0.00038676 |
| 7 | -0.01517196 | -0.01588629 | 0.00071433 |
| 8 | -0.00696541 | -0.00646435 | 0.00050106 |
| 9 | 0.00990703 | 0.00995457 | 0.00004754 |
| 指标 | 数值 |
|---|---|
| 最大绝对误差 (Max Abs Diff) | 0.00170749 |
| 平均绝对误差 (Mean Abs Diff) | 0.00040263 |
| 最大相对误差 (Max Rel Diff) | 0.489107% |
| 余弦相似度 (Cosine Similarity) | 0.99986321 |
| CPU 推理时间 | 7.7344s |
| NPU 推理时间 | 0.217s |
NPU 与 CPU 推理结果误差 < 1%,精度对齐验证通过。
| 设备 | 推理耗时 (s) | 加速比 |
|---|---|---|
| CPU | 7.7344 | 1.00x (baseline) |
| NPU (Ascend910) | 0.217 | 35.64x |
基于现有评测数据,CPU 与 NPU 的 余弦相似度 精度误差为 0.0137%,小于 1% 的精度要求。
#+NPU #+CV #+图像特征 #+ViT #+多模态 #+昇腾 #+Ascend910 #+SigLIP #+ViT-Large
本 README 由 model-agent 自动生成,基于昇腾 NPU 实际测试数据。