Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese 是一个中文 CLIP (Contrastive Language-Image Pre-training) 模型,包含 ~326M 参数。该模型使用 RoBERTa-large 作为文本编码器,CLIP-ViT-Large-Patch14 作为图像编码器,能够计算中文文本与图像之间的相似度。
| 组件 | 版本 |
|---|---|
| 硬件 | Ascend910 |
| PyTorch | 2.9.0 |
| torch_npu | 2.9.0.post1+gitee7ba04 |
| transformers | 4.57.6 |
| Python | 3.11.14 |
~/Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese/model/Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese直接推理(非 vLLM 服务):
cd ~/Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese
HF_ENDPOINT=https://hf-mirror.com TRANSFORMERS_CACHE=/tmp/clip-vit-large-patch14 HF_HOME=/tmp/clip-vit-large-patch14 python3 inference.py输入测试文本:["一只猫", "一条狗", "一辆汽车", "一架飞机", "一朵花"]
输出匹配概率:[[0.011 0.782 0.028 0.13 0.049]]
最匹配结果:一条狗
cd ~/Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese/eval
HF_ENDPOINT=https://hf-mirror.com TRANSFORMERS_CACHE=/tmp/clip-vit-large-patch14 HF_HOME=/tmp/clip-vit-large-patch14 python3 accuracy_run.py| 测试输入 | 期望输出 | 实际输出 | 是否正确 |
|---|---|---|---|
| ["一只猫", "一条狗", "一辆汽车", "一架飞机", "一朵花"] | 一条狗 | 一条狗 (78.2%) | 正确 |
测试条件:50 次推理循环(前 5 次 warmup),单次推理包括文本编码 + 图像编码 + 相似度计算。
| 指标 | 数值 |
|---|---|
| 平均延迟 | 26.185 ms |
| P50 延迟 | 26.163 ms |
| P90 延迟 | 26.467 ms |
| P99 延迟 | 26.684 ms |
| 最低延迟 | 24.964 ms |
| 最高延迟 | 26.726 ms |
cd ~/Fengshenbang/Taiyi-CLIP-Roberta-large-326M-Chinese/eval
HF_ENDPOINT=https://hf-mirror.com TRANSFORMERS_CACHE=/tmp/clip-vit-large-patch14 HF_HOME=/tmp/clip-vit-large-patch14 python3 accuracy_run_perf.pyHF_ENDPOINT=https://hf-mirror.comopenai/clip-vit-large-patch14