Ascend-SACT/Qwen3-Embedding-4B
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

1、模型介绍

Qwen3 Embedding 模型系列是 Qwen 家族的最新专有模型,专门设计用于文本嵌入和排序任务。该系列基于 Qwen3 系列的密集基础模型,提供了各种大小(0.6B、4B 和 8B)的全面文本嵌入和重新排序模型。该系列继承了其基础模型出色的多语言能力、长文本理解和推理技能。Qwen3 Embedding 系列在多种文本嵌入和排序任务中取得了显著进展,包括文本检索、代码检索、文本分类、文本聚类和双语文本挖掘。

模型类型模型大小层数序列长度嵌入维度MRL 支持指令感知
文本嵌入Qwen3-Embedding-0.6B0.6B2832K1024是是
文本嵌入Qwen3-Embedding-4B4B3632K2560是是
文本嵌入Qwen3-Embedding-8B8B3632K4096是是

本次介绍如何在昇腾NPU上部署并运行Qwen3-Embedding-4B进行推理。

模型权重下载地址:https://modelscope.cn/models/Qwen/Qwen3-Embedding-4B/files

2、运行环境

2.1 硬件信息

设备型号NPU配置
Atlas 300I-Pro1卡

如果使用910B部署,可使用vNPU虚拟化技术减少显存浪费。推荐使用Atlas 310-Pro、Atlas 300I-Duo这种小卡部署这种小参数量的模型。

2.2 软件信息

软件版本
Python3.11.10
PyTorch7.2.0
mis-tei7.2.RC1
Ascend HDK25.2.1
CANN8.3.RC2
Docker-

3、部署过程

3.1、下载模型和推理镜像

使用modelscope下载模型权重:

nohup modelscope download --model Qwen/Qwen3-Embedding-4B --local_dir /ai > qwen3-embedding-4b-download.log 2>&1 &

推理镜像下载:

docker pull swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:7.2.RC1-300I-Duo-aarch64 

如果服务器无法联网,可以在联网环境下载好,通过网络工具或者存储介质拷贝方式上传到服务器。 复制到服务器上后通过docker load -i {推理镜像包全路径}的方式加载镜像到docker容器中。

3.2、创建容器

使用下述命令创建容器:

docker run -itd --net=host --shm-size=20g --name qwen3-embedding-4b -u root \
  -v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro \
  -v /usr/local/sbin:/usr/local/sbin:ro \
  -v /ai/Qwen3-Embedding-4B:/home/HwHiAiUser/model/ \
  swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:7.1.RC1-800I-A2-aarch64 \
  Qwen3-Embedding-4B 0.0.0.0 8090

实际的模型权重路径根据需要进行修改。

4、推理测试

执行命令调用接口进行测试,支持openai格式接口。

curl -X POST http://127.0.0.1:8090/v1/embeddings  -H 'Content-type: application/json'  -d '{"input": "How are you today?"}'