Qwen3 Embedding 模型系列是 Qwen 家族的最新专有模型,专门设计用于文本嵌入和排序任务。该系列基于 Qwen3 系列的密集基础模型,提供了各种大小(0.6B、4B 和 8B)的全面文本嵌入和重新排序模型。该系列继承了其基础模型出色的多语言能力、长文本理解和推理技能。Qwen3 Embedding 系列在多种文本嵌入和排序任务中取得了显著进展,包括文本检索、代码检索、文本分类、文本聚类和双语文本挖掘。
| 模型类型 | 模型 | 大小 | 层数 | 序列长度 | 嵌入维度 | MRL 支持 | 指令感知 |
|---|---|---|---|---|---|---|---|
| 文本嵌入 | Qwen3-Embedding-0.6B | 0.6B | 28 | 32K | 1024 | 是 | 是 |
| 文本嵌入 | Qwen3-Embedding-4B | 4B | 36 | 32K | 2560 | 是 | 是 |
| 文本嵌入 | Qwen3-Embedding-8B | 8B | 36 | 32K | 4096 | 是 | 是 |
本次介绍如何在昇腾NPU上部署并运行Qwen3-Embedding-4B进行推理。
模型权重下载地址:https://modelscope.cn/models/Qwen/Qwen3-Embedding-4B/files
| 设备型号 | NPU配置 |
|---|---|
| Atlas 300I-Pro | 1卡 |
如果使用910B部署,可使用vNPU虚拟化技术减少显存浪费。推荐使用Atlas 310-Pro、Atlas 300I-Duo这种小卡部署这种小参数量的模型。
| 软件 | 版本 |
|---|---|
| Python | 3.11.10 |
| PyTorch | 7.2.0 |
| mis-tei | 7.2.RC1 |
| Ascend HDK | 25.2.1 |
| CANN | 8.3.RC2 |
| Docker | - |
使用modelscope下载模型权重:
nohup modelscope download --model Qwen/Qwen3-Embedding-4B --local_dir /ai > qwen3-embedding-4b-download.log 2>&1 &推理镜像下载:
docker pull swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:7.2.RC1-300I-Duo-aarch64 如果服务器无法联网,可以在联网环境下载好,通过网络工具或者存储介质拷贝方式上传到服务器。 复制到服务器上后通过docker load -i {推理镜像包全路径}的方式加载镜像到docker容器中。
使用下述命令创建容器:
docker run -itd --net=host --shm-size=20g --name qwen3-embedding-4b -u root \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro \
-v /usr/local/sbin:/usr/local/sbin:ro \
-v /ai/Qwen3-Embedding-4B:/home/HwHiAiUser/model/ \
swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:7.1.RC1-800I-A2-aarch64 \
Qwen3-Embedding-4B 0.0.0.0 8090实际的模型权重路径根据需要进行修改。
执行命令调用接口进行测试,支持openai格式接口。
curl -X POST http://127.0.0.1:8090/v1/embeddings -H 'Content-type: application/json' -d '{"input": "How are you today?"}'