1、模型介绍

Qwen3 Embedding 模型系列是 Qwen 家族的最新专有模型，专门设计用于文本嵌入和排序任务。该系列基于 Qwen3 系列的密集基础模型，提供了各种大小（0.6B、4B 和 8B）的全面文本嵌入和重新排序模型。该系列继承了其基础模型出色的多语言能力、长文本理解和推理技能。Qwen3 Embedding 系列在多种文本嵌入和排序任务中取得了显著进展，包括文本检索、代码检索、文本分类、文本聚类和双语文本挖掘。

模型类型	模型	大小	层数	序列长度	嵌入维度	MRL 支持	指令感知
文本嵌入	Qwen3-Embedding-0.6B	0.6B	28	32K	1024	是	是
文本嵌入	Qwen3-Embedding-4B	4B	36	32K	2560	是	是
文本嵌入	Qwen3-Embedding-8B	8B	36	32K	4096	是	是

本次介绍如何在昇腾NPU上部署并运行Qwen3-Embedding-4B进行推理。

模型权重下载地址：https://modelscope.cn/models/Qwen/Qwen3-Embedding-4B/files

2、运行环境

2.1 硬件信息

设备型号	NPU配置
Atlas 300I-Pro	1卡

如果使用910B部署，可使用vNPU虚拟化技术减少显存浪费。推荐使用Atlas 310-Pro、Atlas 300I-Duo这种小卡部署这种小参数量的模型。

2.2 软件信息

软件	版本
Python	3.11.10
PyTorch	7.2.0
mis-tei	7.2.RC1
Ascend HDK	25.2.1
CANN	8.3.RC2
Docker	-

3、部署过程

3.1、下载模型和推理镜像

使用modelscope下载模型权重：

nohup modelscope download --model Qwen/Qwen3-Embedding-4B --local_dir /ai > qwen3-embedding-4b-download.log 2>&1 &

推理镜像下载：

docker pull swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:7.2.RC1-300I-Duo-aarch64

如果服务器无法联网，可以在联网环境下载好，通过网络工具或者存储介质拷贝方式上传到服务器。复制到服务器上后通过docker load -i {推理镜像包全路径}的方式加载镜像到docker容器中。

3.2、创建容器

使用下述命令创建容器：

docker run -itd --net=host --shm-size=20g --name qwen3-embedding-4b -u root \
  -v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro \
  -v /usr/local/sbin:/usr/local/sbin:ro \
  -v /ai/Qwen3-Embedding-4B:/home/HwHiAiUser/model/ \
  swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:7.1.RC1-800I-A2-aarch64 \
  Qwen3-Embedding-4B 0.0.0.0 8090

实际的模型权重路径根据需要进行修改。

4、推理测试

执行命令调用接口进行测试，支持openai格式接口。

curl -X POST http://127.0.0.1:8090/v1/embeddings  -H 'Content-type: application/json'  -d '{"input": "How are you today?"}'

1、模型介绍

模型类型	模型	大小	层数	序列长度	嵌入维度	MRL 支持	指令感知
文本嵌入	Qwen3-Embedding-0.6B	0.6B	28	32K	1024	是	是
文本嵌入	Qwen3-Embedding-4B	4B	36	32K	2560	是	是
文本嵌入	Qwen3-Embedding-8B	8B	36	32K	4096	是	是

本次介绍如何在昇腾NPU上部署并运行Qwen3-Embedding-4B进行推理。

设备型号

NPU配置

Atlas 300I-Pro

1卡

软件

版本

Python

3.11.10

PyTorch

7.2.0

mis-tei

7.2.RC1

Ascend HDK

25.2.1

CANN

8.3.RC2

Docker