xujiashuai/timm-nlp_corom_passage-ranking_chinese-tiny-ecom
模型介绍文件和版本Pull Requests讨论分析

nlp_corom_passage-ranking_chinese-tiny-ecom - 昇腾 NPU 适配

1. 模型简介

中文段落排序模型,基于 BERT-tiny 架构(256 隐藏层,4 层),用于电商场景的段落排序。

  • 原始模型: iic/nlp_corom_passage-ranking_chinese-tiny-ecom
  • 框架: PyTorch
  • 任务: 文本排序(段落排序)

2. 昇腾 NPU 适配结果

指标值
余弦相似度(隐藏层)0.999999
余弦相似度(池化层)0.999999
平均延迟3.17 毫秒
参数量~500 万
推理精度float32
设备Ascend 910B4

3. 环境要求

组件版本
CANN8.5.1
torch_npu2.9.0.post1
PyTorch2.9.0
Python3.11

4. 快速使用

export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH

python inference.py --device npu:0 --dtype float32

5. 推理输出证据

NPU 推理输出(float32):

模型: iic/nlp_corom_passage-ranking_chinese-tiny-ecom
设备: npu:0
精度: float32
------------------------------------------------------------
  last_hidden_state: shape=torch.Size([1, 10, 256])
  pooler_output: shape=torch.Size([1, 256])
  pooler (first 10): [-0.9702, -0.9998, -0.8421, 0.9821, -0.4824, 0.7226, -0.2813, -0.9816, -0.9300, -0.2358]

  Cosine Similarity (hidden): 0.999999
  Cosine Similarity (pooler): 0.999999

✓ 推理完成
  平均延迟: 3.17 ms

6. CPU 与 NPU 精度对比

指标CPU (float32)NPU (float32)误差
余弦相似度 (hidden)基准0.999999< 0.001%
余弦相似度 (pooler)基准0.999999< 0.001%
输出维度[1,10,256][1,10,256]一致

7. 模型结构

  • 骨干网络: BERT-tiny(4 层,256 隐藏层,4 个注意力头)
  • 输入: 中文文本(query + passage)
  • 输出: last_hidden_state + pooler_output

8. 智能体技能

本适配由 batch-adapter 自动完成。

下载使用量0