intfloat_multilingual_e5_small_finetune

1. 简介

本文档记录 TaitaiPhu/intfloat_multilingual_e5_small_finetune 在昇腾 NPU（Ascend910）环境的快速部署与验证结果。

? 模型，基于 HuggingFace transformers 框架。

2. 验证环境

组件	版本
`torch`	`2.9.0+cpu`
`torch_npu`	`2.9.0.post1`
`transformers`	`>=4.48.0`
`CANN`	`8.5.RC1`

NPU：Ascend910（单卡）
推理框架：PyTorch + transformers

3. 快速部署

3.1 环境准备

pip install transformers torch torchvision sentence-transformers

3.2 推理代码

import torch
from transformers import AutoModel, AutoTokenizer

device = torch.device("npu:0" if torch.npu.is_available() else "cpu")

tokenizer = AutoTokenizer.from_pretrained("TaitaiPhu/intfloat_multilingual_e5_small_finetune")
model = AutoModel.from_pretrained("TaitaiPhu/intfloat_multilingual_e5_small_finetune")
model = model.to(device).eval()

sentences = ["今天天气怎么样", "如何学习编程"]
inputs = tokenizer(sentences, padding=True, truncation=True, return_tensors="pt")
inputs = {k: v.to(device) for k, v in inputs.items()}

with torch.no_grad():
    outputs = model(**inputs)
embeddings = outputs.last_hidden_state.mean(dim=1)
print(f"Embedding shape: {embeddings.shape}")

4. Smoke 验证

python3 inference.py

验证结果：

模型成功加载到 npu:0
输出维度正确
推理过程无报错

5. 性能参考

测试条件：FP32 / batch=8 / warmup=5 / timed=100 runs，Ascend910 单卡。

指标	数值
平均推理时间	`6.39 ms`
QPS（每秒查询）	`1251.56`
测试次数	`100`

6. 精度评测

NPU 与 CPU 输出对比。

指标	数值
平均余弦相似度	`0.999999`
最低余弦相似度	`0.999999`
最大向量差异	`0.000988`
平均向量差异	`0.000216`
结论	`PASS`

7. 注意事项

NPU 推理结果与 CPU 的 embedding 余弦相似度通常 > 0.999
最大序列长度因模型而异，超出长度会被截断

1. 简介

本文档记录 TaitaiPhu/intfloat_multilingual_e5_small_finetune 在昇腾 NPU（Ascend910）环境的快速部署与验证结果。

? 模型，基于 HuggingFace transformers 框架。

相关获取地址：

组件

版本

torch

2.9.0+cpu

torch_npu

2.9.0.post1

transformers

>=4.48.0

CANN

8.5.RC1

3. 快速部署

3.1 环境准备

pip install transformers torch torchvision sentence-transformers

3.2 推理代码

import torch
from transformers import AutoModel, AutoTokenizer

device = torch.device("npu:0" if torch.npu.is_available() else "cpu")

tokenizer = AutoTokenizer.from_pretrained("TaitaiPhu/intfloat_multilingual_e5_small_finetune")
model = AutoModel.from_pretrained("TaitaiPhu/intfloat_multilingual_e5_small_finetune")
model = model.to(device).eval()

sentences = ["今天天气怎么样", "如何学习编程"]
inputs = tokenizer(sentences, padding=True, truncation=True, return_tensors="pt")
inputs = {k: v.to(device) for k, v in inputs.items()}

with torch.no_grad():
    outputs = model(**inputs)
embeddings = outputs.last_hidden_state.mean(dim=1)
print(f"Embedding shape: {embeddings.shape}")

指标

数值

平均推理时间

6.39 ms

QPS（每秒查询）

1251.56

测试次数

100

指标

数值

平均余弦相似度

0.999999

最低余弦相似度

0.999999

最大向量差异

0.000988

平均向量差异

0.000216

结论

PASS