DeepSeek-R1-Distill-Qwen-14B推理需要1台(2卡)Atlas 800T/800I A2(64G)服务器服务器(基于BF16权重)。昇思MindSpore提供了DeepSeek-R1-Distill-Qwen-14B推理可用的Docker容器镜像,供开发者快速体验。
pkill -9 python
pkill -9 mindie
pkill -9 ray执行以下 Shell 命令,拉取昇思 MindSpore DeepSeek-R1-Distill 推理容器镜像:
docker pull swr.cn-central-221.ovaijisuan.com/mindformers/mindformers1.3_mindspore2.4:deepseek-r1-distill执行以下命令创建并启动容器(/mnt/data/DSR1DistillQwen14B用于存放权重路径,若没有/mnt盘则要修改):
docker run -it --privileged --name=DSR1DistillQwen14B --net=host \
--shm-size 500g \
--device=/dev/davinci0 \
--device=/dev/davinci1 \
--device=/dev/davinci2 \
--device=/dev/davinci3 \
--device=/dev/davinci4 \
--device=/dev/davinci5 \
--device=/dev/davinci6 \
--device=/dev/davinci7 \
--device=/dev/davinci_manager \
--device=/dev/hisi_hdc \
--device /dev/devmm_svm \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
-v /usr/local/Ascend/firmware:/usr/local/Ascend/firmware \
-v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \
-v /usr/local/sbin:/usr/local/sbin \
-v /etc/hccn.conf:/etc/hccn.conf \
-v /mnt/data/DSR1DistillQwen14B:/mnt/data/DSR1DistillQwen14B \
swr.cn-central-221.ovaijisuan.com/mindformers/mindformers1.3_mindspore2.4:deepseek-r1-distill \
bash执行以下命令为自定义下载路径 /mnt/data/DSR1DistillQwen14B 添加白名单:
export HUB_WHITE_LIST_PATHS=/mnt/data/DSR1DistillQwen14B执行以下命令从魔乐社区下载昇思 MindSpore 版本的 DeepSeek-R1-Distill-Qwen-14B权重文件至指定路径 /mnt/data/DSR1DistillQwen14B 。下载的文件包含模型代码、权重、分词模型和示例代码,占用约 28GB 的磁盘空间:
pip install openmind_hubpython
from openmind_hub import snapshot_download
snapshot_download(
repo_id="MindSpore-Lab/DeepSeek-R1-Distill-Qwen-14B",
local_dir="/mnt/data/DSR1DistillQwen14B",
local_dir_use_symlinks=False
)
exit()/mnt/data/DSR1DistillQwen14B 可修改为自定义路径,确保该路径有足够的磁盘空间(约 28GB)。1、打开/mnt/data/DSR1DistillQwen14B/peizhi文件夹下的yaml文件并修改
load_checkpoint: '/mnt/data/DSR1DistillQwen14B' #权重路径
vocab_file: '/mnt/data/DSR1DistillQwen14B/peizhi/tokenizer.json' #tokenizer.json所在路径
tokenizer_file: '/mnt/data/DSR1DistillQwen14B/peizhi/tokenizer.json' #tokenizer.json所在路径2、修改mindie-server的配置文件
vim /usr/local/Ascend/mindie/latest/mindie-service/conf/config.json
"npuDeviceIds" : [[0,1]],
"modelName" : "deepseek-r1-distill-qwen-14b",
"modelWeightPath" : "/mnt/data/DSR1DistillQwen14B/peizhi", #存放配置路径,根据实际情况修改
"worldSize" : 2,
"maxIterTimes" : 512, #注意,该字段限制推理token长度,默认仅输出512 tokens,需要根据需要修改在服务器中添加如下环境变量:
source /usr/local/Ascend/ascend-toolkit/set_env.sh
source /usr/local/Ascend/mindie/latest/mindie-llm/set_env.sh
source /usr/local/Ascend/mindie/latest/mindie-service/set_env.sh
export LCAL_IF_PORT=8129
export MS_SCHED_HOST=127.0.0.1 # scheduler节点ip地址
export MS_SCHED_PORT=8090
export PYTHONPATH=/root/mindformers:$PYTHONPATH
export ASCEND_RT_VISIBLE_DEVICES=0,1运行以下命令,启动mindie-service服务:
cd /usr/local/Ascend/mindie/latest/mindie-service/bin/
./mindieservice_daemon出现以下信息,表示推理服务启动成功!
Daemon start success!打开新的窗口,执行以下命令发送推理请求测试。
curl -H "Accept: application/json" -H "Content-type: application/json" -X POST -d ' { "model": "deepseek-r1-distill-qwen-14b", "messages": [{"role": "user", "content": "介绍一下中国"}], "frequency_penalty": 2, "max_tokens": 1024, "stream": false }' http://127.0.0.1:1025/v1/chat/completions
如果需要模型输出更多token,一是按照上方指导修改mindie配置中的"maxIterTimes" 字段,另一方面是要修改推理请求中的"max_tokens"字段。
本文档提供的模型代码、权重文件和部署镜像,当前仅限于基于昇思MindSpore AI框架体验Qwen3-32B的部署效果,不支持生产环境部署。相关使用问题请反馈至Issue。