Xiaoxy510/cross-encoder--ms-marco-MiniLM-L12-v2-ascend

cross-encoder--ms-marco-MiniLM-L12-v2-ascend:cross-encoder/ms-marco-MiniLM-L12-v2 NPU adaptation on Ascend 910B3 - AtomGit AI社区

cross-encoder/ms-marco-MiniLM-L12-v2 on Ascend 910B3

1. 简介

本文档记录 cross-encoder/ms-marco-MiniLM-L12-v2 在昇腾 Ascend 910B3 NPU 上的迁移适配、推理部署与精度评测结果。

该模型是一个基于 MiniLM 的交叉编码器（Cross-Encoder），用于信息检索中的文本相关性排序。模型接受（查询，段落）对作为输入，输出相关性评分（分数越高越相关）。参数量约 33.36M。

本次适配工作包括：

在 NPU（Ascend 910B3）上验证交叉编码器推理的正确性
对比 NPU 与 CPU 的输出精度，确保误差 < 1%
提供可直接使用的 NPU 推理脚本 inference.py
提供精度与性能评测脚本 eval.py

2. 验证环境

组件	版本
`Python`	`3.9.13`
`torch`	`2.8.0+cpu`
`torch_npu`	`2.8.0.post4`
`transformers`	`4.57.6`
`numpy`	`1.24.4`

NPU：Ascend 910B3 × 8 逻辑卡
驱动版本：25.5.2

3. 模型适配与部署

3.1 适配说明

该模型使用标准 BERT 架构（MiniLM），transformers 库原生支持。NPU 适配无需修改模型结构或权重。

已验证通过的适配流程：

import torch
import torch_npu
from transformers import AutoModelForSequenceClassification, AutoTokenizer

model = AutoModelForSequenceClassification.from_pretrained("cross-encoder/ms-marco-MiniLM-L12-v2")
model = model.npu()
model.eval()

tokenizer = AutoTokenizer.from_pretrained("cross-encoder/ms-marco-MiniLM-L12-v2")
inputs = tokenizer(["query"], ["passage"], return_tensors="pt")
inputs = {k: v.npu() for k, v in inputs.items()}

with torch.no_grad():
    outputs = model(**inputs)
    score = outputs.logits.cpu().item()

3.2 环境准备

pip install torch torch_npu transformers -i https://repo.huaweicloud.com/repository/pypi/simple/
export HF_ENDPOINT=https://hf-mirror.com

3.3 推理脚本使用

# NPU 推理
python inference.py --query "How many people live in Berlin?" --passage "Berlin has 3.5 million people."

# 从 JSON 文件批量推理
python inference.py --input pairs.json --output scores.json

# CPU 推理
python inference.py --query "Q" --passage "P" --device cpu

JSON 输入格式：

[
    {"query": "question", "passage": "relevant passage"},
    {"query": "question", "passage": "irrelevant passage"}
]

4. Smoke 验证

python inference.py --query "How many people live in Berlin?" --passage "Berlin had a population of 3.5 million."

5. 性能参考

测试条件：batch_size=12，seq_len=128，float32 精度，连续 20 次取平均。

指标	CPU	NPU (Ascend 910B3)
平均推理时间 (12 pairs)	~1150 ms	~18 ms
单 pair 平均耗时	~96 ms	~1.5 ms
加速比	1x	~60x
参数量	33.36M	33.36M
模型大小	127.2 MB	127.2 MB

6. 精度评测

评测方法

在 CPU 上加载模型并推理得到参考评分
在 NPU 上加载同一权重并推理得到 NPU 评分
对比两组输出

评测结果

使用 12 组（查询，段落）对进行评测：

指标	数值	要求	结果
MSE	1.03e-5	-	-
Cosine Similarity	1.00000000	> 0.999	✓
Mean Relative Error	0.038%	< 1%	✓ PASS

结论：NPU 精度误差 0.038%，满足精度要求（< 1%）。

详细评测日志见 eval_log.txt。

7. 注意事项

权重文件：NPU 适配无需修改原始权重
设备选择：脚本默认自动检测 NPU，若 NPU 不可用则回退到 CPU
评分解释：输出分数为原始 logit，分数越高表示查询与段落越相关
torch_npu 版本：确保与 torch 版本匹配
单卡推理：当前使用单张 NPU 卡