Ascend-SACT/Qwen3-Embedding-0.6B_310P
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

Qwen3-Embedding-0.6B在昇腾310P上安装指导

1. 安装版本配套:推荐版本

软件版本下载链接
CANN8.2.RC1https://www.hiascend.com/developer/download/community/result?cann=8.2&product=cann
vLLM Ascend0.10.0.rc1网站:
quay.io/ascend/vllm-ascend:v0.10.0rc1-310p
下载命令:
docker pull quay.io/ascend/vllm-ascend:v0.10.0rc1-310p

2. 安装前置准备:如果系统已安装CANN版本及驱动可跳过此步骤

(1) 安装昇腾310P的CANN版本,参考下面链接下载对应310P的版本后安装
https://www.hiascend.com/developer/download/community/result?cann=8.2&product=cann
image

(2) 安装310P的驱动和固件,参考下面链接下载后安装驱动和固件
https://www.hiascend.com/hardware/firmware-drivers/community?product=1&model=20&cann=8.2.RC1&driver=Ascend+HDK+25.2.0

3. vLLM Ascend镜像上启动Qwen3-Embedding-0.6B

(1) 下载完昇腾310P的vLLM Ascend镜像后,上传到对应昇腾310P的服务器上,并且加载这个镜像,参考命令:
docker load xxx.tar
(2) 将Qwen3-Embedding-0.6B的模型文件上传到服务器,并且解压到存储空闲的目录,例如/opt/models
(3) 启动vLLM Ascend的docker镜像,参考命令:

export IMAGE=quay.io/ascend/vllm-ascend:v0.10.0rc1-310p
docker run
--name vllm-qwen3-emb-0.6b
--shm-size=500g
--net=host -it -d
--privileged=true
--device /dev/davinci0
--device /dev/davinci1
--device /dev/davinci2
--device /dev/davinci3
--device /dev/davinci4
--device /dev/davinci5
--device /dev/davinci6
--device /dev/davinci7
--device /dev/davinci_manager
--device /dev/devmm_svm
--device /dev/hisi_hdc
-v /usr/local/dcmi:/usr/local/dcmi
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info
-v /etc/ascend_install.info:/etc/ascend_install.info
-v /root/.cache:/root/.cache
-v /opt/models:/home/models
-p 8000:8000
-it $IMAGE bash

参数简单说明:以下参数可根据实际情况修改
--device /dev/davinci0代表是昇腾NPU的设备文件挂载到容器里,使得容器内的应用程序(如深度学习框架)可以直接访问昇腾硬件进行加速计算,设备不同数字编号可能有所差异,可以到/dev目录下查看有几张310P的卡,参考命令写了8张310P卡。
-v /opt/models:/home/models 其中/opt/models是模型放置的目录,可以根据实际情况修改,/home/models是容器里面的挂载目录

(4)进入容器
docker exec -itu root vllm-qwen3-emb-0.6b bash
(5)设置环境变量
vi ~/.bashrc
添加以下环境变量:
export VLLM_USE_MODELSCOPE=True
export PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:256
export ASCEND_RT_VISIBLE_DEVICES=0 #说明:模型使用哪张310P卡的设置,如果需要多张卡,可以用英文逗号隔开,例如0,1等 添加完后保存,并且生效环境变量
source ~/.bashrc

(6)启动模型
进入目录:
cd /home/models

前台启动方式:
vllm serve Qwen3-Embedding-0.6B
--tensor-parallel-size 1
--enforce-eager
--dtype float16
--compilation-config '{"custom_ops":["none", "+rms_norm", "+rotary_embedding"]}'
--host=192.168.1.2
--port=28000
--gpu-memory-utilization=0.8
--task embed

后台启动方式:
nohup vllm serve Qwen3-Embedding-0.6B
--tensor-parallel-size 1
--enforce-eager
--dtype float16
--compilation-config '{"custom_ops":["none", "+rms_norm", "+rotary_embedding"]}'
--host=192.168.1.2
--port=28000
--gpu-memory-utilization=0.8
--task embed 1>qwen3-emb.log &

说明:
前台启动方式启动后命令窗口不能关闭,可以用来调试,后台启动方式可以关闭窗口,通过查看qwen3-emb.log日志看是否启动正常。
--host=192.168.1.2 这个参数为可选参数,可以配置成实际IP
--port=28000 这个参数为可选参数,可以配置成自定义端口
--gpu-memory-utilization=0.8 当遇到因为显存溢出导致系统重启时,可以通过这个参数限制一下NPU使用显存利用率

4. 验证模型可以通过curl命令来验证,命令示例:

curl --request POST
--url http://192.168.1.2:28000/v1/embeddings
--header 'content-type: application/json'
--data '{ "input": ["你是谁?"] }'