weixin_72661020/Taiyi-CLIP-Roberta-large-326M-Chinese
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

Taiyi-CLIP-Roberta-large-326M-Chinese 在昇腾 NPU 上的适配与验证

1. 简介

Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese 是一个中文 CLIP (Contrastive Language-Image Pre-training) 模型,包含 ~326M 参数。该模型使用 RoBERTa-large 作为文本编码器,CLIP-ViT-Large-Patch14 作为图像编码器,能够计算中文文本与图像之间的相似度。

  • 权重下载地址(ModelScope):https://modelscope.cn/models/Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese
  • 模型类型:多模态图文匹配
  • 文本编码器:BertForSequenceClassification (chinese-roberta-wwm-ext-large)
  • 图像编码器:CLIPModel (openai/clip-vit-large-patch14)
  • 推理框架:PyTorch + torch_npu

2. 验证环境

组件版本
硬件Ascend910
PyTorch2.9.0
torch_npu2.9.0.post1+gitee7ba04
transformers4.57.6
Python3.11.14
  • NPU:2 逻辑卡(使用 npu:0)
  • 模型路径:~/Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese/model/Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese

3. 推理验证

直接推理(非 vLLM 服务):

cd ~/Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese
HF_ENDPOINT=https://hf-mirror.com TRANSFORMERS_CACHE=/tmp/clip-vit-large-patch14 HF_HOME=/tmp/clip-vit-large-patch14 python3 inference.py

推理结果示例

输入测试文本:["一只猫", "一条狗", "一辆汽车", "一架飞机", "一朵花"]

输出匹配概率:[[0.011 0.782 0.028 0.13 0.049]]

最匹配结果:一条狗

4. 精度评测

cd ~/Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese/eval
HF_ENDPOINT=https://hf-mirror.com TRANSFORMERS_CACHE=/tmp/clip-vit-large-patch14 HF_HOME=/tmp/clip-vit-large-patch14 python3 accuracy_run.py
测试输入期望输出实际输出是否正确
["一只猫", "一条狗", "一辆汽车", "一架飞机", "一朵花"]一条狗一条狗 (78.2%)正确

5. 性能参考

测试条件:50 次推理循环(前 5 次 warmup),单次推理包括文本编码 + 图像编码 + 相似度计算。

指标数值
平均延迟26.185 ms
P50 延迟26.163 ms
P90 延迟26.467 ms
P99 延迟26.684 ms
最低延迟24.964 ms
最高延迟26.726 ms
cd ~/Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese/eval
HF_ENDPOINT=https://hf-mirror.com TRANSFORMERS_CACHE=/tmp/clip-vit-large-patch14 HF_HOME=/tmp/clip-vit-large-patch14 python3 accuracy_run_perf.py

6. 注意事项

  • 使用 ModelScope SDK 下载模型权重
  • HuggingFace 模型需使用镜像 HF_ENDPOINT=https://hf-mirror.com
  • CLIP 视觉编码器需从 HuggingFace 下载 openai/clip-vit-large-patch14
  • 模型需运行在 Ascend910 NPU 上
  • 推理时需将文本和图像输入分别处理后计算余弦相似度