中文段落排序模型,基于 BERT-tiny 架构(256 隐藏层,4 层),用于电商场景的段落排序。
| 指标 | 值 |
|---|---|
| 余弦相似度(隐藏层) | 0.999999 |
| 余弦相似度(池化层) | 0.999999 |
| 平均延迟 | 3.17 毫秒 |
| 参数量 | ~500 万 |
| 推理精度 | float32 |
| 设备 | Ascend 910B4 |
| 组件 | 版本 |
|---|---|
| CANN | 8.5.1 |
| torch_npu | 2.9.0.post1 |
| PyTorch | 2.9.0 |
| Python | 3.11 |
export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH
python inference.py --device npu:0 --dtype float32NPU 推理输出(float32):
模型: iic/nlp_corom_passage-ranking_chinese-tiny-ecom
设备: npu:0
精度: float32
------------------------------------------------------------
last_hidden_state: shape=torch.Size([1, 10, 256])
pooler_output: shape=torch.Size([1, 256])
pooler (first 10): [-0.9702, -0.9998, -0.8421, 0.9821, -0.4824, 0.7226, -0.2813, -0.9816, -0.9300, -0.2358]
Cosine Similarity (hidden): 0.999999
Cosine Similarity (pooler): 0.999999
✓ 推理完成
平均延迟: 3.17 ms| 指标 | CPU (float32) | NPU (float32) | 误差 |
|---|---|---|---|
| 余弦相似度 (hidden) | 基准 | 0.999999 | < 0.001% |
| 余弦相似度 (pooler) | 基准 | 0.999999 | < 0.001% |
| 输出维度 | [1,10,256] | [1,10,256] | 一致 |
本适配由 batch-adapter 自动完成。