DeepSeek-R1-A8W4 vLLM-MindSpore 使用指南

请注意：

本项目中使用的软件包含在研版本，仅供个人体验使用，请勿用于商用。如有问题，请及时在评论区与我们联系。

环境搭建

环境准备：一台Atlas 800I A2 (64G)。

拉取镜像

docker pull swr.cn-central-221.ovaijisuan.com/mindsporelab/infer_a8w4_ms_20250708:latest

启动容器，/data/deepseek_r1-A8W4/用于存放权重及yaml配置文件。

docker run -it --name=DSR1A8W4 --ipc=host --network=host --privileged=true --hostname=worker23 \
        --device=/dev/davinci0 \
        --device=/dev/davinci1 \
        --device=/dev/davinci2 \
        --device=/dev/davinci3 \
        --device=/dev/davinci4 \
        --device=/dev/davinci5 \
        --device=/dev/davinci6 \
        --device=/dev/davinci7 \
        --device=/dev/davinci_manager \
        --device=/dev/devmm_svm \
        --device=/dev/hisi_hdc \
        -v /usr/local/sbin/:/usr/local/sbin/ \
        -v /etc/hccn.conf:/etc/hccn.conf \
        -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
        -v /usr/local/dcmi:/usr/local/dcmi \
        -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
        -v /etc/ascend_install.info:/etc/ascend_install.info \
        -v /etc/vnpu.cfg:/etc/vnpu.cfg \
        -v /data/deepseek_r1-A8W4/:/data/deepseek_r1-A8W4/ \
        swr.cn-central-221.ovaijisuan.com/mindsporelab/infer_a8w4_ms_20250708:latest \
        /bin/bash

下载权重及yaml配置文件

从魔乐社区下载权重及yaml配置文件。

pip install openmind_hub
export HUB_WHITE_LIST_PATHS=/data/deepseek_r1-A8W4

from openmind_hub import snapshot_download

snapshot_download(
    repo_id="MindSpore-Lab/R1-A8W4",
    local_dir="/data/deepseek_r1-A8W4",
    local_dir_use_symlinks=False
)

修改yaml配置文件

# 修改为模型权重路径 
load_checkpoint: '/data/deepseek_r1-A8W4/'

# 修改为模型tokenizer.json文件所在路径
vocab_file: '/data/deepseek_r1-A8W4/tokenizer.json'

# 修改为模型tokenizer.json文件所在路径
tokenizer_file: '/data/deepseek_r1-A8W4/tokenizer.json'

启动

在容器中分别添加环境变量。

export MINDFORMERS_MODEL_CONFIG=/data/deepseek_r1-A8W4/config/predict_deepseek_r1_671b.yaml
export ASCEND_CUSTOM_PATH=$ASCEND_HOME_PATH/../
export vLLM_MODEL_BACKEND=MindFormers
export HCCL_OP_EXPANSION_MODE=AIV
export HCCL_CONNECT_TIMEOUT=3600
export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
export PYTHONPATH=/workspace/mindformers:$PYTHONPATH

在容器中启动服务。模型路径根据需要调整。

vllm-mindspore serve \
  --model="/data/deepseek_r1-A8W4" \
  --trust_remote_code \
  --max-num-seqs=256 \
  --max_model_len=32768 \
  --max-num-batched-tokens=4096 \
  --block-size=128 \
  --gpu-memory-utilization=0.9 \
  --tensor-parallel-size 8

发起推理服务请求，打开一个新终端，IP地址为0.0.0.0或localhost

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "/data/deepseek_r1-A8W4",
    "messages": [
      {"role": "user", "content": "请介绍下北京的top景点"}
    ],
    "temperature": 0.1,
    "max_tokens": 4096,
    "top_p": 0.9,
    "repetition_penalty": 1.2
  }'

DeepSeek-R1-A8W4 vLLM-MindSpore 使用指南

请注意：

本项目中使用的软件包含在研版本，仅供个人体验使用，请勿用于商用。如有问题，请及时在评论区与我们联系。

环境搭建

环境准备：一台Atlas 800I A2 (64G)。

拉取镜像

docker pull swr.cn-central-221.ovaijisuan.com/mindsporelab/infer_a8w4_ms_20250708:latest

启动容器，/data/deepseek_r1-A8W4/用于存放权重及yaml配置文件。

docker run -it --name=DSR1A8W4 --ipc=host --network=host --privileged=true --hostname=worker23 \
        --device=/dev/davinci0 \
        --device=/dev/davinci1 \
        --device=/dev/davinci2 \
        --device=/dev/davinci3 \
        --device=/dev/davinci4 \
        --device=/dev/davinci5 \
        --device=/dev/davinci6 \
        --device=/dev/davinci7 \
        --device=/dev/davinci_manager \
        --device=/dev/devmm_svm \
        --device=/dev/hisi_hdc \
        -v /usr/local/sbin/:/usr/local/sbin/ \
        -v /etc/hccn.conf:/etc/hccn.conf \
        -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
        -v /usr/local/dcmi:/usr/local/dcmi \
        -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
        -v /etc/ascend_install.info:/etc/ascend_install.info \
        -v /etc/vnpu.cfg:/etc/vnpu.cfg \
        -v /data/deepseek_r1-A8W4/:/data/deepseek_r1-A8W4/ \
        swr.cn-central-221.ovaijisuan.com/mindsporelab/infer_a8w4_ms_20250708:latest \
        /bin/bash

下载权重及yaml配置文件

从魔乐社区下载权重及yaml配置文件。

pip install openmind_hub
export HUB_WHITE_LIST_PATHS=/data/deepseek_r1-A8W4

from openmind_hub import snapshot_download

snapshot_download(
    repo_id="MindSpore-Lab/R1-A8W4",
    local_dir="/data/deepseek_r1-A8W4",
    local_dir_use_symlinks=False
)

修改yaml配置文件

# 修改为模型权重路径 
load_checkpoint: '/data/deepseek_r1-A8W4/'

# 修改为模型tokenizer.json文件所在路径
vocab_file: '/data/deepseek_r1-A8W4/tokenizer.json'

# 修改为模型tokenizer.json文件所在路径
tokenizer_file: '/data/deepseek_r1-A8W4/tokenizer.json'

启动

在容器中分别添加环境变量。

export MINDFORMERS_MODEL_CONFIG=/data/deepseek_r1-A8W4/config/predict_deepseek_r1_671b.yaml
export ASCEND_CUSTOM_PATH=$ASCEND_HOME_PATH/../
export vLLM_MODEL_BACKEND=MindFormers
export HCCL_OP_EXPANSION_MODE=AIV
export HCCL_CONNECT_TIMEOUT=3600
export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
export PYTHONPATH=/workspace/mindformers:$PYTHONPATH

在容器中启动服务。模型路径根据需要调整。

vllm-mindspore serve \
  --model="/data/deepseek_r1-A8W4" \
  --trust_remote_code \
  --max-num-seqs=256 \
  --max_model_len=32768 \
  --max-num-batched-tokens=4096 \
  --block-size=128 \
  --gpu-memory-utilization=0.9 \
  --tensor-parallel-size 8

发起推理服务请求，打开一个新终端，IP地址为0.0.0.0或localhost

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "/data/deepseek_r1-A8W4",
    "messages": [
      {"role": "user", "content": "请介绍下北京的top景点"}
    ],
    "temperature": 0.1,
    "max_tokens": 4096,
    "top_p": 0.9,
    "repetition_penalty": 1.2
  }'