Qwen3-Coder-30B-A3B-Instruct vllm-mindspore 推理指南

下载链接

社区	下载地址
魔乐社区	https://modelers.cn/models/MindSpore-Lab/Qwen3-Coder-30B-A3B-Instruct

模型下载

执行以下命令为自定义下载路径 /mnt/data/Qwen3-Coder-30B-A3B-Instruct 添加白名单。

export HUB_WHITE_LIST_PATHS=/mnt/data/Qwen3-Coder-30B-A3B-Instruct

执行以下命令从魔乐社区下载Qwen3-Coder-30B-A3B-Instruct 权重文件至指定路径 /mnt/data/Qwen3-Coder-30B-A3B-Instruct 。下载的文件包含模型代码、权重、分词模型和示例代码，占用约 60GB 的磁盘空间：

pip install openmind_hub

python

from openmind_hub import snapshot_download

snapshot_download(
    repo_id="MindSpore-Lab/Qwen3-Coder-30B-A3B-Instruct",
    local_dir="/mnt/data/Qwen3-Coder-30B-A3B-Instruct",
    local_dir_use_symlinks=False
)
exit()

注意事项：

/mnt/data/Qwen3-Coder-30B-A3B-Instruct 可修改为自定义路径，确保该路径有足够的磁盘空间（约 60GB）。
下载时间可能因网络环境而异，建议在稳定的网络环境下操作。

快速开始

Qwen3-Coder-30B-A3B-Instruct推理需要1台（4卡）Atlas 800T/800I A2（64G）服务器服务器（基于BF16权重）。昇思MindSpore提供了Qwen3-Coder-30B-A3B-Instruct推理可用的Docker容器镜像，供开发者快速体验。

停止其他进程，避免服务器中其他进程影响

pkill -9 python
pkill -9 mindie
pkill -9 ray

下载昇思 MindSpore 推理容器镜像

执行以下 Shell 命令，拉取昇思 MindSpore Qwen3 推理容器镜像：

docker pull swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-30b-2507:20250731

启动容器

执行以下命令创建并启动容器（/mnt/data/Qwen3-Coder-30B-A3B-Instruct用于存放权重路径，若没有/mnt盘则要修改）：

docker run -it \
--privileged \
--name=qwen3_coder_30b \
--net=host \
--cap-add=SYS_PTRACE \
--security-opt seccomp=unconfined \
--device=/dev/davinci0 \
--device=/dev/davinci1 \
--device=/dev/davinci2 \
--device=/dev/davinci3 \
--device=/dev/davinci_manager \
--device=/dev/hisi_hdc \
--device=/dev/devmm_svm \
--device=/dev/davinci_manager \
-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \
-v /usr/local/Ascend/driver/:/usr/local/Ascend/driver/ \
-v /usr/local/sbin:/usr/local/sbin \
-v /etc/hccn.conf:/etc/hccn.conf \
-v /mnt/data/Qwen3-Coder-30B-A3B-Instruct/:/mnt/data/Qwen3-Coder-30B-A3B-Instruct/ \
swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-30b-2507:20250731 \
/bin/bash

注意事项：

后续操作，除了发起推理请求可以在容器外进行，其余操作均在容器内进行。

服务化部署

1. 添加环境变量

在服务器中添加如下环境变量：

export vLLM_MODEL_BACKEND=MindFormers
export MS_ENABLE_TRACE_MEMORY=off

2. 拉起服务

执行以下命令拉起服务：

python3 -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model "/mnt/data/Qwen3-Coder-30B-A3B-Instruct" --trust_remote_code --tensor_parallel_size=4 --max-num-seqs=192 --max_model_len=32768 --max-num-batched-tokens=16384 --block-size=32 --gpu-memory-utilization=0.9

3. 执行推理请求测试

打开新的窗口，执行以下命令发送推理请求。

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
  "model": "/mnt/data/Qwen3-Coder-30B-A3B-Instruct",
  "messages": [
    {"role": "user", "content": "帮我用python写一段代码，用双指针实现三数之和：给你一个整数数组 nums ，判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i != j、i != k 且 j != k ，同时还满足 nums[i] + nums[j] + nums[k] == 0 ，返回所有和为 0 且不重复的三元组。"}
  ],
  "temperature": 0.6,
  "top_p": 0.95,
  "top_k": 20,
  "min_p": 0,
  "max_tokens": 4096,
  "presence_penalty": 1.05
}'

声明

本文档提供的模型代码、权重文件和部署镜像，当前仅限于基于昇思MindSpore AI框架体验部署效果，不支持生产环境部署。相关使用问题请反馈至Issue。

Qwen3-Coder-30B-A3B-Instruct vllm-mindspore 推理指南

下载链接

社区	下载地址
魔乐社区	https://modelers.cn/models/MindSpore-Lab/Qwen3-Coder-30B-A3B-Instruct

模型下载

执行以下命令为自定义下载路径 /mnt/data/Qwen3-Coder-30B-A3B-Instruct 添加白名单。

export HUB_WHITE_LIST_PATHS=/mnt/data/Qwen3-Coder-30B-A3B-Instruct

pip install openmind_hub

python

from openmind_hub import snapshot_download

snapshot_download(
    repo_id="MindSpore-Lab/Qwen3-Coder-30B-A3B-Instruct",
    local_dir="/mnt/data/Qwen3-Coder-30B-A3B-Instruct",
    local_dir_use_symlinks=False
)
exit()

注意事项：

/mnt/data/Qwen3-Coder-30B-A3B-Instruct 可修改为自定义路径，确保该路径有足够的磁盘空间（约 60GB）。
下载时间可能因网络环境而异，建议在稳定的网络环境下操作。

快速开始

停止其他进程，避免服务器中其他进程影响

pkill -9 python
pkill -9 mindie
pkill -9 ray

下载昇思 MindSpore 推理容器镜像

执行以下 Shell 命令，拉取昇思 MindSpore Qwen3 推理容器镜像：

docker pull swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-30b-2507:20250731

启动容器

执行以下命令创建并启动容器（/mnt/data/Qwen3-Coder-30B-A3B-Instruct用于存放权重路径，若没有/mnt盘则要修改）：

docker run -it \
--privileged \
--name=qwen3_coder_30b \
--net=host \
--cap-add=SYS_PTRACE \
--security-opt seccomp=unconfined \
--device=/dev/davinci0 \
--device=/dev/davinci1 \
--device=/dev/davinci2 \
--device=/dev/davinci3 \
--device=/dev/davinci_manager \
--device=/dev/hisi_hdc \
--device=/dev/devmm_svm \
--device=/dev/davinci_manager \
-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \
-v /usr/local/Ascend/driver/:/usr/local/Ascend/driver/ \
-v /usr/local/sbin:/usr/local/sbin \
-v /etc/hccn.conf:/etc/hccn.conf \
-v /mnt/data/Qwen3-Coder-30B-A3B-Instruct/:/mnt/data/Qwen3-Coder-30B-A3B-Instruct/ \
swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-30b-2507:20250731 \
/bin/bash

注意事项：

后续操作，除了发起推理请求可以在容器外进行，其余操作均在容器内进行。

服务化部署

1. 添加环境变量

在服务器中添加如下环境变量：

export vLLM_MODEL_BACKEND=MindFormers
export MS_ENABLE_TRACE_MEMORY=off

2. 拉起服务

执行以下命令拉起服务：

python3 -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model "/mnt/data/Qwen3-Coder-30B-A3B-Instruct" --trust_remote_code --tensor_parallel_size=4 --max-num-seqs=192 --max_model_len=32768 --max-num-batched-tokens=16384 --block-size=32 --gpu-memory-utilization=0.9

3. 执行推理请求测试

打开新的窗口，执行以下命令发送推理请求。

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
  "model": "/mnt/data/Qwen3-Coder-30B-A3B-Instruct",
  "messages": [
    {"role": "user", "content": "帮我用python写一段代码，用双指针实现三数之和：给你一个整数数组 nums ，判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i != j、i != k 且 j != k ，同时还满足 nums[i] + nums[j] + nums[k] == 0 ，返回所有和为 0 且不重复的三元组。"}
  ],
  "temperature": 0.6,
  "top_p": 0.95,
  "top_k": 20,
  "min_p": 0,
  "max_tokens": 4096,
  "presence_penalty": 1.05
}'

声明

本文档提供的模型代码、权重文件和部署镜像，当前仅限于基于昇思MindSpore AI框架体验部署效果，不支持生产环境部署。相关使用问题请反馈至Issue。