Taiyi-CLIP-Roberta-large-326M-Chinese 在昇腾 NPU 上的适配与验证

1. 简介

Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese 是一个中文 CLIP (Contrastive Language-Image Pre-training) 模型，包含 ~326M 参数。该模型使用 RoBERTa-large 作为文本编码器，CLIP-ViT-Large-Patch14 作为图像编码器，能够计算中文文本与图像之间的相似度。

权重下载地址（ModelScope）：https://modelscope.cn/models/Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese
模型类型：多模态图文匹配
文本编码器：BertForSequenceClassification (chinese-roberta-wwm-ext-large)
图像编码器：CLIPModel (openai/clip-vit-large-patch14)
推理框架：PyTorch + torch_npu

2. 验证环境

组件	版本
硬件	Ascend910
PyTorch	2.9.0
torch_npu	2.9.0.post1+gitee7ba04
transformers	4.57.6
Python	3.11.14

NPU：2 逻辑卡（使用 npu:0）
模型路径：~/Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese/model/Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese

3. 推理验证

直接推理（非 vLLM 服务）：

cd ~/Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese
HF_ENDPOINT=https://hf-mirror.com TRANSFORMERS_CACHE=/tmp/clip-vit-large-patch14 HF_HOME=/tmp/clip-vit-large-patch14 python3 inference.py

推理结果示例

输入测试文本：["一只猫", "一条狗", "一辆汽车", "一架飞机", "一朵花"]

输出匹配概率：[[0.011 0.782 0.028 0.13 0.049]]

最匹配结果：一条狗

4. 精度评测

cd ~/Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese/eval
HF_ENDPOINT=https://hf-mirror.com TRANSFORMERS_CACHE=/tmp/clip-vit-large-patch14 HF_HOME=/tmp/clip-vit-large-patch14 python3 accuracy_run.py

测试输入	期望输出	实际输出	是否正确
["一只猫", "一条狗", "一辆汽车", "一架飞机", "一朵花"]	一条狗	一条狗 (78.2%)	正确

5. 性能参考

测试条件：50 次推理循环（前 5 次 warmup），单次推理包括文本编码 + 图像编码 + 相似度计算。

指标	数值
平均延迟	26.185 ms
P50 延迟	26.163 ms
P90 延迟	26.467 ms
P99 延迟	26.684 ms
最低延迟	24.964 ms
最高延迟	26.726 ms

cd ~/Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese/eval
HF_ENDPOINT=https://hf-mirror.com TRANSFORMERS_CACHE=/tmp/clip-vit-large-patch14 HF_HOME=/tmp/clip-vit-large-patch14 python3 accuracy_run_perf.py

6. 注意事项

使用 ModelScope SDK 下载模型权重
HuggingFace 模型需使用镜像 HF_ENDPOINT=https://hf-mirror.com
CLIP 视觉编码器需从 HuggingFace 下载 openai/clip-vit-large-patch14
模型需运行在 Ascend910 NPU 上
推理时需将文本和图像输入分别处理后计算余弦相似度