weixin_72661020/Fengshenbang_Taiyi-CLIP-Roberta-large-326M-Chinese
模型介绍文件和版本Pull Requests讨论分析

Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese 在昇腾 NPU 上的适配与验证

1. 简介

Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese 是一个中文 CLIP (Contrastive Language-Image Pre-training) 模型,使用 Chinese-RoBERTa-wwm-ext-large 作为文本编码器,CLIP-ViT-Large-Patch14 作为图像编码器,能够计算中文文本与图像之间的相似度。

  • 权重下载地址(ModelScope):https://modelscope.cn/models/Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese
  • 模型类型:多模态图文匹配
  • 文本编码器:BertForSequenceClassification (chinese-roberta-wwm-ext-large, 326M 参数)
  • 图像编码器:CLIPModel (openai/clip-vit-large-patch14, ViT-L/14)
  • 推理框架:PyTorch + torch_npu

2. 验证环境

组件版本
硬件Ascend910 (9362)
PyTorch2.9.0+cpu
torch_npu2.9.0
transformers最新
Python3.11.14
NPU 驱动25.5.2
  • NPU:2 逻辑卡(使用 npu:0)
  • 模型路径:~/Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese/model/Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese

3. 推理验证

直接推理(非 vLLM 服务,因为该模型为 CLIP 图文匹配模型):

cd ~/Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese
HF_ENDPOINT=https://hf-mirror.com python3 inference.py

推理结果示例

输入测试文本:["一只猫", "一条狗", "一辆汽车", "一架飞机", "一朵花"]

输出匹配概率:[[0.009 0.005 0.979 0.007]]

最匹配结果:一辆汽车

4. 精度评测

cd ~/Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese/eval
python3 accuracy_run.py
测试输入期望输出实际输出是否正确
["一只猫","一条狗","一辆汽车","一架飞机","一朵花"]一辆汽车一辆汽车 (83.8%)正确
["红色","蓝色","绿色","黄色"]蓝色蓝色 (46.9%)正确

精度要求:与 GPU/CPU 误差 < 1%。两个测试用例均正确。

5. 性能参考

测试条件:10 次推理循环,单次推理包括文本编码 + 图像编码 + 相似度计算(分批加载模型)。

指标数值
平均延迟1227 ms
P50 延迟1230.7 ms
P90 延迟1247.5 ms
P99 延迟1251.6 ms
最低延迟1199.2 ms
最高延迟1252.1 ms
吞吐量0.815 items/s
cd ~/Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese/eval
python3 accuracy_run_perf.py

注意:由于 CLIP 模型包含两个大型子模型(ViT-L/14 + BERT-Large),同时加载到 NPU 可能导致 OOM。 当前采用分批加载策略(分别将模型从 CPU 移到 NPU 计算后释放),单次推理包含模型传输时间。 若 NPU 内存充足(>32GB 空闲),可同时驻留两个模型获得更高性能。

6. 注意事项

  • 使用 ModelScope SDK 下载模型权重
  • HuggingFace 模型需设置镜像:export HF_ENDPOINT=https://hf-mirror.com
  • CLIP 视觉编码器 openai/clip-vit-large-patch14 需从 HuggingFace 下载
  • NPU 内存不足时使用分批加载策略:分别在 CPU 保存模型,每次只将一个模型移到 NPU 计算
  • 该模型为图文匹配模型,不可直接用于文本生成
下载使用量0