本文档记录 jinaai/jina-reranker-v1-turbo-en Jina Reranker 模型在昇腾 NPU(Ascend 910B3)上的迁移适配、精度评测与性能验证结果。
Jina Reranker 是 Jina AI 推出的轻量级英文信息检索精排模型,基于自研 JinaBert 架构(12 层,384 维隐藏层,FlashAttention)。与标准 BERT 不同,JinaBert 使用 GLU(Gated Linear Unit)MLP 替代标准 FFN,推理速度提升 2-3×。该模型接受 (query, passage) 对作为输入,输出单个 sigmoid 相关性分数(0-1),适用于 RAG 系统的检索结果重排。
适配中的关键挑战:JinaBert 的自定义代码依赖 transformers.onnx 和 transformers.pytorch_utils.find_pruneable_heads_and_indices,这些 API 在 transformers 4.36+ 中被移除,需锁定 4.35.2 版本。
相关获取地址:
| 组件 | 版本 |
|---|---|
torch | 2.8.0 |
torch_npu | 2.8.0.post4 |
transformers | 4.35.2 |
CANN | 8.5.1 |
8 × Ascend 910B3conda create -n jinaai--jina-reranker-v1-turbo-en python=3.11 -y
conda activate jinaai--jina-reranker-v1-turbo-en
pip install torch==2.8.0 torch_npu==2.8.0.post4 \
-i https://pypi.tuna.tsinghua.edu.cn/simple
# 注意:必须 4.35.x
pip install transformers==4.35.2 numpy \
-i https://pypi.tuna.tsinghua.edu.cn/simple
# 清除旧缓存模块避免冲突
rm -rf ~/.cache/huggingface/modules/transformers_modules/jinaai*python inference.py --query "What is AI?" --passage "AI is artificial intelligence." --device npu编程接口:
from inference import JinaReranker
rr = JinaReranker(model_path="./jinaai--jina-reranker-v1-turbo-en", device="npu")
scores = rr.rank(
query="What is machine learning?",
passages=["Machine learning is a subset of AI.", "The weather is sunny.", "Deep learning uses neural networks."]
)
# scores → [0.92, 0.05, 0.78] 排序后按相关性降序python inference.py --query "What is AI?" --passage "AI is artificial intelligence." --device npu预期输出:相关性分数(0-1 之间),查询相关的 passage 得分高,无关 passage 得分低;无运行时错误。
测试条件:3 组 query × 3 passage 对(共 9 对),NPU 预热 1 轮。
| 指标 | 数值 |
|---|---|
| CPU 吞吐量 | 61.9 passages/s |
| NPU 吞吐量 | 253.1 passages/s |
| CPU/NPU 加速比 | 4.1 × |
JinaBert 在 CPU 上已有较高效率(384 维 + GLU 加速),NPU 加速比(4.1×)低于大模型但绝对吞吐显著提升。
分别在 CPU 和 NPU 上对 3 组 query × 3 passage 推理,比较 sigmoid 相关性分数向量的余弦相似度和 MAE。
| 指标 | 数值 |
|---|---|
| 平均余弦相似度 | 1.000000 |
| MAE | 0.000130 |
| 精度误差率 | 0.0000% |
结论:精度误差率 0.0000%,NPU 与 CPU 输出完全一致,评测通过。
JinaBertGLUMLP)替代标准 BERT FFN,参数量减少但表达能力更强AutoModelForSequenceClassification.from_pretrained() 加载,必须配合:
trust_remote_code=True:加载自定义 JinaBert 架构代码num_labels=1:单输出回归(非 2 类分类),防止 shape mismatchignore_mismatched_sizes=True:忽略 classifier 维度不匹配警告transformers.onnx.OnnxConfig,4.36+ 已移除configuration_bert.py 注释掉 onnx 导入(不影响推理)model.to("npu:0") 迁移,GLU 结构(W1*x ⊙ W2*x)在 NPU 上通过矩阵乘法和 element-wise 乘法实现import torch, torch_npu
from transformers import AutoModelForSequenceClassification, AutoTokenizer
model = AutoModelForSequenceClassification.from_pretrained(
"jina-reranker-v1-turbo-en",
trust_remote_code=True,
num_labels=1,
ignore_mismatched_sizes=True
).to("npu:0")
tokenizer = AutoTokenizer.from_pretrained(
"jina-reranker-v1-turbo-en", trust_remote_code=True
)
query, passage = "What is AI?", "AI is artificial intelligence."
inputs = tokenizer(query, passage, return_tensors="pt", truncation=True)
inputs = {k: v.to("npu:0") for k, v in inputs.items()}
with torch.no_grad():
score = torch.sigmoid(model(**inputs).logits).item()ModuleNotFoundError: No module named 'transformers.onnx'。建议创建独立 conda 环境隔离版本。num_labels=1 会默认创建 (2, 384) 的 classifier 导致 shape mismatch。W₁(x) ⊙ σ(W₂(x)) 公式(gating mechanism),在 NPU 上通过两次矩阵乘法和一次 element-wise 乘法实现,算子均原生支持。~/.cache/huggingface/modules/)可能导致冲突。建议切换版本后清理缓存目录中对应的模型子目录。