本文档记录 NeuML_pubmedbert-base-colbert 在昇腾 NPU(Ascend910)环境的快速部署与验证结果。文本嵌入模型,基于 HuggingFace transformers 框架。
NeuML_pubmedbert-base-colbert
transformers
参考 inference.py。
NPU vs CPU logits 数值一致性对比(PASS)。
NPU: 6.95 ms (batch=8, max_length=128)