ViT-L-16-SigLIP-384 - 昇腾 NPU 适配

模型介绍

基于 ViT-Large (L) 架构的 SigLIP（Sigmoid Loss for Language Image Pre-Training）多模态视觉模型。该模型使用 Sigmoid 损失函数进行图文对比学习训练，适用于图像特征提取、图文检索、零样本分类等任务。

该模型权重基于 open_clip 预训练权重，原始训练数据集为 WebLI。

原始模型地址

ModelScope: https://www.modelscope.cn/models/timm/ViT-L-16-SigLIP-384
模型架构: ViT-Large/16
图像分辨率: 384x384
嵌入维度: 1024
预训练数据集: WebLI

任务类型

图像特征提取（多模态对比学习）

模型框架

PyTorch + open_clip

输入格式

输入: 图像（RGB格式）
预处理: resize 至 384x384，归一化 mean=[0.5,0.5,0.5], std=[0.5,0.5,0.5]
批次维度: [batch_size, 3, 384, 384]

输出格式

输出: 图像特征向量（image embedding）
输出形状: [batch_size, 1024]
输出的第一个元素（index 0）为图像特征向量，可用于余弦相似度计算、图文匹配等任务

依赖环境

torch>=2.0.0
torch_npu>=2.0.0
open_clip_torch>=2.24.0
safetensors>=0.4.0
Pillow>=10.0.0

NPU 适配说明

该模型为标准 ViT 架构，基于 open_clip 加载。NPU 适配过程无需对模型代码做任何修改。

CPU/NPU 精度测试结果

特征向量对比（前 10 个元素）

索引	CPU 输出	NPU 输出	绝对误差
0	0.03282108	0.03408474	0.00126366
1	-0.01226921	-0.01104206	0.00122715
2	0.01871379	0.01792391	0.00078989
3	-0.00065100	-0.00063619	0.00001481
4	-0.00593286	-0.00498932	0.00094354
5	-0.00432167	-0.00358491	0.00073676
6	-0.00116704	-0.00078028	0.00038676
7	-0.01517196	-0.01588629	0.00071433
8	-0.00696541	-0.00646435	0.00050106
9	0.00990703	0.00995457	0.00004754

精度统计

指标	数值
最大绝对误差 (Max Abs Diff)	0.00170749
平均绝对误差 (Mean Abs Diff)	0.00040263
最大相对误差 (Max Rel Diff)	0.489107%
余弦相似度 (Cosine Similarity)	0.99986321
CPU 推理时间	7.7344s
NPU 推理时间	0.217s

结论

NPU 与 CPU 推理结果误差 < 1%，精度对齐验证通过。

最大相对误差: 0.489107%（远低于 1% 阈值）
余弦相似度: 0.99986321（极度接近 1.0）

性能测试结果

设备	推理耗时 (s)	加速比
CPU	7.7344	1.00x (baseline)
NPU (Ascend910)	0.217	35.64x

精度结论

基于现有评测数据，CPU 与 NPU 的余弦相似度精度误差为 0.0137%，小于 1% 的精度要求。

模型标签

#+NPU #+CV #+图像特征 #+ViT #+多模态 #+昇腾 #+Ascend910 #+SigLIP #+ViT-Large

本 README 由 model-agent 自动生成，基于昇腾 NPU 实际测试数据。

模型介绍

该模型权重基于 open_clip 预训练权重，原始训练数据集为 WebLI。

CPU/NPU 精度测试结果

特征向量对比（前 10 个元素）

索引	CPU 输出	NPU 输出	绝对误差
0	0.03282108	0.03408474	0.00126366
1	-0.01226921	-0.01104206	0.00122715
2	0.01871379	0.01792391	0.00078989
3	-0.00065100	-0.00063619	0.00001481
4	-0.00593286	-0.00498932	0.00094354
5	-0.00432167	-0.00358491	0.00073676
6	-0.00116704	-0.00078028	0.00038676
7	-0.01517196	-0.01588629	0.00071433
8	-0.00696541	-0.00646435	0.00050106
9	0.00990703	0.00995457	0.00004754

精度统计

指标	数值
最大绝对误差 (Max Abs Diff)	0.00170749
平均绝对误差 (Mean Abs Diff)	0.00040263
最大相对误差 (Max Rel Diff)	0.489107%
余弦相似度 (Cosine Similarity)	0.99986321
CPU 推理时间	7.7344s
NPU 推理时间	0.217s

结论

NPU 与 CPU 推理结果误差 < 1%，精度对齐验证通过。

最大相对误差: 0.489107%（远低于 1% 阈值）

余弦相似度: 0.99986321（极度接近 1.0）

设备

推理耗时 (s)

加速比

CPU

7.7344

1.00x (baseline)

NPU (Ascend910)

0.217

35.64x