nlp_corom_passage-ranking_chinese-tiny-ecom - 昇腾 NPU 适配

1. 模型简介

中文段落排序模型，基于 BERT-tiny 架构（256 隐藏层，4 层），用于电商场景的段落排序。

原始模型: iic/nlp_corom_passage-ranking_chinese-tiny-ecom
框架: PyTorch
任务: 文本排序（段落排序）

2. 昇腾 NPU 适配结果

指标	值
余弦相似度（隐藏层）	0.999999
余弦相似度（池化层）	0.999999
平均延迟	3.17 毫秒
参数量	~500 万
推理精度	float32
设备	Ascend 910B4

3. 环境要求

组件	版本
CANN	8.5.1
torch_npu	2.9.0.post1
PyTorch	2.9.0
Python	3.11

4. 快速使用

export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH

python inference.py --device npu:0 --dtype float32

5. 推理输出证据

NPU 推理输出（float32）:

模型: iic/nlp_corom_passage-ranking_chinese-tiny-ecom
设备: npu:0
精度: float32
------------------------------------------------------------
  last_hidden_state: shape=torch.Size([1, 10, 256])
  pooler_output: shape=torch.Size([1, 256])
  pooler (first 10): [-0.9702, -0.9998, -0.8421, 0.9821, -0.4824, 0.7226, -0.2813, -0.9816, -0.9300, -0.2358]

  Cosine Similarity (hidden): 0.999999
  Cosine Similarity (pooler): 0.999999

✓ 推理完成
  平均延迟: 3.17 ms

6. CPU 与 NPU 精度对比

指标	CPU (float32)	NPU (float32)	误差
余弦相似度 (hidden)	基准	0.999999	< 0.001%
余弦相似度 (pooler)	基准	0.999999	< 0.001%
输出维度	[1,10,256]	[1,10,256]	一致

7. 模型结构

骨干网络: BERT-tiny（4 层，256 隐藏层，4 个注意力头）
输入: 中文文本（query + passage）
输出: last_hidden_state + pooler_output

8. 智能体技能

本适配由 batch-adapter 自动完成。

nlp_corom_passage-ranking_chinese-tiny-ecom - 昇腾 NPU 适配

1. 模型简介

中文段落排序模型，基于 BERT-tiny 架构（256 隐藏层，4 层），用于电商场景的段落排序。

原始模型: iic/nlp_corom_passage-ranking_chinese-tiny-ecom
框架: PyTorch
任务: 文本排序（段落排序）

2. 昇腾 NPU 适配结果

指标	值
余弦相似度（隐藏层）	0.999999
余弦相似度（池化层）	0.999999
平均延迟	3.17 毫秒
参数量	~500 万
推理精度	float32
设备	Ascend 910B4

3. 环境要求

组件	版本
CANN	8.5.1
torch_npu	2.9.0.post1
PyTorch	2.9.0
Python	3.11

4. 快速使用

export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH

python inference.py --device npu:0 --dtype float32

5. 推理输出证据

NPU 推理输出（float32）:

模型: iic/nlp_corom_passage-ranking_chinese-tiny-ecom
设备: npu:0
精度: float32
------------------------------------------------------------
  last_hidden_state: shape=torch.Size([1, 10, 256])
  pooler_output: shape=torch.Size([1, 256])
  pooler (first 10): [-0.9702, -0.9998, -0.8421, 0.9821, -0.4824, 0.7226, -0.2813, -0.9816, -0.9300, -0.2358]

  Cosine Similarity (hidden): 0.999999
  Cosine Similarity (pooler): 0.999999

✓ 推理完成
  平均延迟: 3.17 ms

6. CPU 与 NPU 精度对比

指标	CPU (float32)	NPU (float32)	误差
余弦相似度 (hidden)	基准	0.999999	< 0.001%
余弦相似度 (pooler)	基准	0.999999	< 0.001%
输出维度	[1,10,256]	[1,10,256]	一致

7. 模型结构

骨干网络: BERT-tiny（4 层，256 隐藏层，4 个注意力头）
输入: 中文文本（query + passage）
输出: last_hidden_state + pooler_output

8. 智能体技能

本适配由 batch-adapter 自动完成。