Qwen3-Embedding-0.6B在昇腾310P上安装指导

1. 安装版本配套：推荐版本

软件	版本	下载链接
CANN	8.2.RC1	https://www.hiascend.com/developer/download/community/result?cann=8.2&product=cann
vLLM Ascend	0.10.0.rc1	网站： quay.io/ascend/vllm-ascend:v0.10.0rc1-310p 下载命令: docker pull quay.io/ascend/vllm-ascend:v0.10.0rc1-310p

2. 安装前置准备：如果系统已安装CANN版本及驱动可跳过此步骤

（1）安装昇腾310P的CANN版本，参考下面链接下载对应310P的版本后安装
https://www.hiascend.com/developer/download/community/result?cann=8.2&product=cann

（2）安装310P的驱动和固件，参考下面链接下载后安装驱动和固件
https://www.hiascend.com/hardware/firmware-drivers/community?product=1&model=20&cann=8.2.RC1&driver=Ascend+HDK+25.2.0

3. vLLM Ascend镜像上启动Qwen3-Embedding-0.6B

(1) 下载完昇腾310P的vLLM Ascend镜像后，上传到对应昇腾310P的服务器上，并且加载这个镜像，参考命令：
docker load xxx.tar
(2) 将Qwen3-Embedding-0.6B的模型文件上传到服务器，并且解压到存储空闲的目录，例如/opt/models
(3) 启动vLLM Ascend的docker镜像，参考命令：

export IMAGE=quay.io/ascend/vllm-ascend:v0.10.0rc1-310p
docker run
--name vllm-qwen3-emb-0.6b
--shm-size=500g
--net=host -it -d
--privileged=true
--device /dev/davinci0
--device /dev/davinci1
--device /dev/davinci2
--device /dev/davinci3
--device /dev/davinci4
--device /dev/davinci5
--device /dev/davinci6
--device /dev/davinci7
--device /dev/davinci_manager
--device /dev/devmm_svm
--device /dev/hisi_hdc
-v /usr/local/dcmi:/usr/local/dcmi
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info
-v /etc/ascend_install.info:/etc/ascend_install.info
-v /root/.cache:/root/.cache
-v /opt/models:/home/models
-p 8000:8000
-it $IMAGE bash

参数简单说明：以下参数可根据实际情况修改
--device /dev/davinci0代表是昇腾NPU的设备文件挂载到容器里，使得容器内的应用程序（如深度学习框架）可以直接访问昇腾硬件进行加速计算，设备不同数字编号可能有所差异，可以到/dev目录下查看有几张310P的卡，参考命令写了8张310P卡。
-v /opt/models:/home/models 其中/opt/models是模型放置的目录，可以根据实际情况修改，/home/models是容器里面的挂载目录

（4）进入容器
docker exec -itu root vllm-qwen3-emb-0.6b bash
（5）设置环境变量
vi ~/.bashrc
添加以下环境变量：
export VLLM_USE_MODELSCOPE=True
export PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:256
export ASCEND_RT_VISIBLE_DEVICES=0 #说明：模型使用哪张310P卡的设置，如果需要多张卡，可以用英文逗号隔开，例如0,1等添加完后保存，并且生效环境变量
source ~/.bashrc

（6）启动模型
进入目录：
cd /home/models

前台启动方式：
vllm serve Qwen3-Embedding-0.6B
--tensor-parallel-size 1
--enforce-eager
--dtype float16
--compilation-config '{"custom_ops":["none", "+rms_norm", "+rotary_embedding"]}'
--host=192.168.1.2
--port=28000
--gpu-memory-utilization=0.8
--task embed

后台启动方式：
nohup vllm serve Qwen3-Embedding-0.6B
--tensor-parallel-size 1
--enforce-eager
--dtype float16
--compilation-config '{"custom_ops":["none", "+rms_norm", "+rotary_embedding"]}'
--host=192.168.1.2
--port=28000
--gpu-memory-utilization=0.8
--task embed 1>qwen3-emb.log &

说明：
前台启动方式启动后命令窗口不能关闭，可以用来调试，后台启动方式可以关闭窗口，通过查看qwen3-emb.log日志看是否启动正常。
--host=192.168.1.2 这个参数为可选参数，可以配置成实际IP
--port=28000 这个参数为可选参数，可以配置成自定义端口
--gpu-memory-utilization=0.8 当遇到因为显存溢出导致系统重启时，可以通过这个参数限制一下NPU使用显存利用率

4. 验证模型可以通过curl命令来验证，命令示例：

curl --request POST
--url http://192.168.1.2:28000/v1/embeddings
--header 'content-type: application/json'
--data '{ "input": ["你是谁？"] }'

软件

版本

下载链接

CANN

8.2.RC1

https://www.hiascend.com/developer/download/community/result?cann=8.2&product=cann

vLLM Ascend

0.10.0.rc1

网站：
quay.io/ascend/vllm-ascend:v0.10.0rc1-310p
下载命令:
docker pull quay.io/ascend/vllm-ascend:v0.10.0rc1-310p

3. vLLM Ascend镜像上启动Qwen3-Embedding-0.6B

（6）启动模型
进入目录：
cd /home/models