HuggingFace镜像/DeepSeek-R1-0528-gs-A8W4
模型介绍文件和版本分析
下载使用量0

DeepSeek-R1-0528-gs-A8W4 部署使用指南

请注意:

  • 本项目中使用的软件包含在研版本,仅供个人体验使用,请勿用于商用。如有问题,请及时在评论区与我们联系。

环境搭建

环境准备:一台Atlas 800I A2 (64G)。

vllm-MindSpore Plugin:0.4.0安装教程

下载权重

从魔乐社区下载权重。

pip install openmind_hub
export HUB_WHITE_LIST_PATHS=/data/deepseek_r1-0528-gs-a8w4
python
from openmind_hub import snapshot_download

snapshot_download(
    repo_id="MindSpore-Lab/DeepSeek-R1-0528-gs-A8W4",
    local_dir="/data/deepseek_r1-0528-gs-a8w4",
    local_dir_use_symlinks=False
)
exit()

启动服务

添加环境变量。

export MS_ALLOC_CONF='enable_vmm:true'
export MS_INTERNAL_ENABLE_NZ_OPS=GroupedMatmulV4
export vLLM_MODEL_BACKEND=MindFormers

拉起服务。模型路径根据需要调整。

vllm-mindspore serve --model=/data/deepseek_r1-0528-gs-a8w4 --trust_remote_code --max-num-seqs=256 --max_model_len=32768 --max-num-batched-tokens=4096 --block-size=128 --gpu-memory-utilization=0.9 --tensor-parallel-size=8 --quantization golden-stick

发送请求

发起推理服务请求,新开一个终端,发送请求的服务端IP地址是0.0.0.0或者localhost

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "/data/deepseek_r1-0528-gs-a8w4",
    "messages": [
      {"role": "user", "content": "请介绍下北京的top景点"}
    ],
    "temperature": 0.1,
    "max_tokens": 4096,
    "top_p": 0.9,
    "repetition_penalty": 1.2
  }' 

数据集精度

基于AISBench评测工具,对DeepSeek-R1-0528-A8W4服务进行数据集评测,评测结果如下:

模型gsm8kcevalaime2024mmlugpqamath500livecodebench
DeepSeek-R1-0528 fp8 (官方)//91.4////
DeepSeek-R1-0528 bf1695.9890.279090.5880.398.269.4
DeepSeek-R1-0528 a8w495.4590.1976.6690.3279.2998.038.43

note:

  1. DeepSeek-R1-0528 bf16和DeepSeek-R1-0528 a8w4模型均基于vllm-mindspore拉起服务,并使用ais_bench进行数据集评测。ais_bench评测方法见:服务化评测。评测数据集获取方式见:数据集介绍。
  2. 本次评测使用ais_bench工具,与DeepSeek-R1-0528 fp8官方评测工具不同,因此与官方DeepSeek-R1-0528 fp8数据对比仅供参考。