请注意:
- 本项目中使用的软件包含在研版本,仅供个人体验使用,请勿用于商用。如有问题,请及时在评论区与我们联系。
环境准备:一台Atlas 800I A2 (64G)。
vllm-MindSpore Plugin:0.4.0安装教程
从魔乐社区下载权重。
pip install openmind_hub
export HUB_WHITE_LIST_PATHS=/data/deepseek_r1-0528-gs-a8w4
python
from openmind_hub import snapshot_download
snapshot_download(
repo_id="MindSpore-Lab/DeepSeek-R1-0528-gs-A8W4",
local_dir="/data/deepseek_r1-0528-gs-a8w4",
local_dir_use_symlinks=False
)
exit()添加环境变量。
export MS_ALLOC_CONF='enable_vmm:true'
export MS_INTERNAL_ENABLE_NZ_OPS=GroupedMatmulV4
export vLLM_MODEL_BACKEND=MindFormers拉起服务。模型路径根据需要调整。
vllm-mindspore serve --model=/data/deepseek_r1-0528-gs-a8w4 --trust_remote_code --max-num-seqs=256 --max_model_len=32768 --max-num-batched-tokens=4096 --block-size=128 --gpu-memory-utilization=0.9 --tensor-parallel-size=8 --quantization golden-stick发起推理服务请求,新开一个终端,发送请求的服务端IP地址是0.0.0.0或者localhost
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "/data/deepseek_r1-0528-gs-a8w4",
"messages": [
{"role": "user", "content": "请介绍下北京的top景点"}
],
"temperature": 0.1,
"max_tokens": 4096,
"top_p": 0.9,
"repetition_penalty": 1.2
}' 基于AISBench评测工具,对DeepSeek-R1-0528-A8W4服务进行数据集评测,评测结果如下:
| 模型 | gsm8k | ceval | aime2024 | mmlu | gpqa | math500 | livecodebench |
|---|---|---|---|---|---|---|---|
| DeepSeek-R1-0528 fp8 (官方) | / | / | 91.4 | / | / | / | / |
| DeepSeek-R1-0528 bf16 | 95.98 | 90.27 | 90 | 90.58 | 80.3 | 98.2 | 69.4 |
| DeepSeek-R1-0528 a8w4 | 95.45 | 90.19 | 76.66 | 90.32 | 79.29 | 98.0 | 38.43 |
note: