DeepSeek-R1-Distill-Qwen-14B mindspore 推理指南

下载链接

社区	下载地址
魔乐社区	https://modelers.cn/models/MindSpore-Lab/DeepSeek-R1-Distill-Qwen-14B

快速开始

DeepSeek-R1-Distill-Qwen-14B推理需要1台（2卡）Atlas 800T/800I A2（64G）服务器服务器（基于BF16权重）。昇思MindSpore提供了DeepSeek-R1-Distill-Qwen-14B推理可用的Docker容器镜像，供开发者快速体验。

停止其他进程，避免服务器中其他进程影响

pkill -9 python
pkill -9 mindie
pkill -9 ray

下载昇思 MindSpore 推理容器镜像

执行以下 Shell 命令，拉取昇思 MindSpore DeepSeek-R1-Distill 推理容器镜像：

docker pull swr.cn-central-221.ovaijisuan.com/mindformers/mindformers1.3_mindspore2.4:deepseek-r1-distill

启动容器

执行以下命令创建并启动容器（/mnt/data/DSR1DistillQwen14B用于存放权重路径，若没有/mnt盘则要修改）：

docker run -it --privileged --name=DSR1DistillQwen14B --net=host \
--shm-size 500g \
--device=/dev/davinci0 \
--device=/dev/davinci1 \
--device=/dev/davinci2 \
--device=/dev/davinci3 \
--device=/dev/davinci4 \
--device=/dev/davinci5 \
--device=/dev/davinci6 \
--device=/dev/davinci7 \
--device=/dev/davinci_manager \
--device=/dev/hisi_hdc \
--device /dev/devmm_svm \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
-v /usr/local/Ascend/firmware:/usr/local/Ascend/firmware \
-v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \
-v /usr/local/sbin:/usr/local/sbin \
-v /etc/hccn.conf:/etc/hccn.conf \
-v /mnt/data/DSR1DistillQwen14B:/mnt/data/DSR1DistillQwen14B \
swr.cn-central-221.ovaijisuan.com/mindformers/mindformers1.3_mindspore2.4:deepseek-r1-distill \
bash

注意事项：

后续操作，除了发起推理请求可以在容器外进行，其余操作均在容器内进行。

模型下载

执行以下命令为自定义下载路径 /mnt/data/DSR1DistillQwen14B 添加白名单：

export HUB_WHITE_LIST_PATHS=/mnt/data/DSR1DistillQwen14B

执行以下命令从魔乐社区下载昇思 MindSpore 版本的 DeepSeek-R1-Distill-Qwen-14B权重文件至指定路径 /mnt/data/DSR1DistillQwen14B 。下载的文件包含模型代码、权重、分词模型和示例代码，占用约 28GB 的磁盘空间：

pip install openmind_hub

python

from openmind_hub import snapshot_download

snapshot_download(
    repo_id="MindSpore-Lab/DeepSeek-R1-Distill-Qwen-14B",
    local_dir="/mnt/data/DSR1DistillQwen14B",
    local_dir_use_symlinks=False
)

exit()

注意事项：

/mnt/data/DSR1DistillQwen14B 可修改为自定义路径，确保该路径有足够的磁盘空间（约 28GB）。
下载时间可能因网络环境而异，建议在稳定的网络环境下操作。

修改配置

1、打开/mnt/data/DSR1DistillQwen14B/peizhi文件夹下的yaml文件并修改

load_checkpoint: '/mnt/data/DSR1DistillQwen14B'    #权重路径
vocab_file: '/mnt/data/DSR1DistillQwen14B/peizhi/tokenizer.json'      #tokenizer.json所在路径
tokenizer_file: '/mnt/data/DSR1DistillQwen14B/peizhi/tokenizer.json'  #tokenizer.json所在路径

2、修改mindie-server的配置文件

vim /usr/local/Ascend/mindie/latest/mindie-service/conf/config.json
"npuDeviceIds" : [[0,1]], 
"modelName" : "deepseek-r1-distill-qwen-14b",
"modelWeightPath" : "/mnt/data/DSR1DistillQwen14B/peizhi", #存放配置路径，根据实际情况修改
"worldSize" : 2,
"maxIterTimes" : 512,  #注意，该字段限制推理token长度，默认仅输出512 tokens，需要根据需要修改

服务化部署

1. 添加环境变量

在服务器中添加如下环境变量：

source /usr/local/Ascend/ascend-toolkit/set_env.sh
source /usr/local/Ascend/mindie/latest/mindie-llm/set_env.sh
source /usr/local/Ascend/mindie/latest/mindie-service/set_env.sh
export LCAL_IF_PORT=8129
export MS_SCHED_HOST=127.0.0.1 # scheduler节点ip地址 
export MS_SCHED_PORT=8090
export PYTHONPATH=/root/mindformers:$PYTHONPATH
export ASCEND_RT_VISIBLE_DEVICES=0,1

2. 拉起服务

运行以下命令，启动mindie-service服务：

cd /usr/local/Ascend/mindie/latest/mindie-service/bin/
./mindieservice_daemon

出现以下信息，表示推理服务启动成功！

Daemon start success!

3. 执行推理请求测试

打开新的窗口，执行以下命令发送推理请求测试。

curl -H "Accept: application/json" -H "Content-type: application/json" -X POST -d ' { "model": "deepseek-r1-distill-qwen-14b", "messages": [{"role": "user", "content": "介绍一下中国"}], "frequency_penalty": 2, "max_tokens": 1024, "stream": false }' http://127.0.0.1:1025/v1/chat/completions

注意

如果需要模型输出更多token，一是按照上方指导修改mindie配置中的"maxIterTimes" 字段，另一方面是要修改推理请求中的"max_tokens"字段。

声明

本文档提供的模型代码、权重文件和部署镜像，当前仅限于基于昇思MindSpore AI框架体验Qwen3-32B的部署效果，不支持生产环境部署。相关使用问题请反馈至Issue。

DeepSeek-R1-Distill-Qwen-14B mindspore 推理指南

下载链接

社区	下载地址
魔乐社区	https://modelers.cn/models/MindSpore-Lab/DeepSeek-R1-Distill-Qwen-14B

快速开始

停止其他进程，避免服务器中其他进程影响

pkill -9 python
pkill -9 mindie
pkill -9 ray

下载昇思 MindSpore 推理容器镜像

执行以下 Shell 命令，拉取昇思 MindSpore DeepSeek-R1-Distill 推理容器镜像：

docker pull swr.cn-central-221.ovaijisuan.com/mindformers/mindformers1.3_mindspore2.4:deepseek-r1-distill

启动容器

执行以下命令创建并启动容器（/mnt/data/DSR1DistillQwen14B用于存放权重路径，若没有/mnt盘则要修改）：

docker run -it --privileged --name=DSR1DistillQwen14B --net=host \
--shm-size 500g \
--device=/dev/davinci0 \
--device=/dev/davinci1 \
--device=/dev/davinci2 \
--device=/dev/davinci3 \
--device=/dev/davinci4 \
--device=/dev/davinci5 \
--device=/dev/davinci6 \
--device=/dev/davinci7 \
--device=/dev/davinci_manager \
--device=/dev/hisi_hdc \
--device /dev/devmm_svm \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
-v /usr/local/Ascend/firmware:/usr/local/Ascend/firmware \
-v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \
-v /usr/local/sbin:/usr/local/sbin \
-v /etc/hccn.conf:/etc/hccn.conf \
-v /mnt/data/DSR1DistillQwen14B:/mnt/data/DSR1DistillQwen14B \
swr.cn-central-221.ovaijisuan.com/mindformers/mindformers1.3_mindspore2.4:deepseek-r1-distill \
bash

注意事项：

后续操作，除了发起推理请求可以在容器外进行，其余操作均在容器内进行。

模型下载

执行以下命令为自定义下载路径 /mnt/data/DSR1DistillQwen14B 添加白名单：

export HUB_WHITE_LIST_PATHS=/mnt/data/DSR1DistillQwen14B

pip install openmind_hub

python

from openmind_hub import snapshot_download

snapshot_download(
    repo_id="MindSpore-Lab/DeepSeek-R1-Distill-Qwen-14B",
    local_dir="/mnt/data/DSR1DistillQwen14B",
    local_dir_use_symlinks=False
)

exit()

注意事项：

/mnt/data/DSR1DistillQwen14B 可修改为自定义路径，确保该路径有足够的磁盘空间（约 28GB）。
下载时间可能因网络环境而异，建议在稳定的网络环境下操作。

修改配置

1、打开/mnt/data/DSR1DistillQwen14B/peizhi文件夹下的yaml文件并修改

load_checkpoint: '/mnt/data/DSR1DistillQwen14B'    #权重路径
vocab_file: '/mnt/data/DSR1DistillQwen14B/peizhi/tokenizer.json'      #tokenizer.json所在路径
tokenizer_file: '/mnt/data/DSR1DistillQwen14B/peizhi/tokenizer.json'  #tokenizer.json所在路径

2、修改mindie-server的配置文件

vim /usr/local/Ascend/mindie/latest/mindie-service/conf/config.json
"npuDeviceIds" : [[0,1]], 
"modelName" : "deepseek-r1-distill-qwen-14b",
"modelWeightPath" : "/mnt/data/DSR1DistillQwen14B/peizhi", #存放配置路径，根据实际情况修改
"worldSize" : 2,
"maxIterTimes" : 512,  #注意，该字段限制推理token长度，默认仅输出512 tokens，需要根据需要修改

服务化部署

1. 添加环境变量

在服务器中添加如下环境变量：

source /usr/local/Ascend/ascend-toolkit/set_env.sh
source /usr/local/Ascend/mindie/latest/mindie-llm/set_env.sh
source /usr/local/Ascend/mindie/latest/mindie-service/set_env.sh
export LCAL_IF_PORT=8129
export MS_SCHED_HOST=127.0.0.1 # scheduler节点ip地址 
export MS_SCHED_PORT=8090
export PYTHONPATH=/root/mindformers:$PYTHONPATH
export ASCEND_RT_VISIBLE_DEVICES=0,1

2. 拉起服务

运行以下命令，启动mindie-service服务：

cd /usr/local/Ascend/mindie/latest/mindie-service/bin/
./mindieservice_daemon

出现以下信息，表示推理服务启动成功！

Daemon start success!

3. 执行推理请求测试

打开新的窗口，执行以下命令发送推理请求测试。

注意

如果需要模型输出更多token，一是按照上方指导修改mindie配置中的"maxIterTimes" 字段，另一方面是要修改推理请求中的"max_tokens"字段。