a
ascend_model_docs/DeepSeek-V3-671B_A2-A3_Verl-GRPO
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

【小白文档】DeepSeek-V3-671B × 昇腾 Atlas 800T A2 × Verl GRPO (Megatron)

上级索引:verl/README.md。
本页面面向:已在昇腾机器上装好驱动 的用户,介绍如何使用 Verl + Megatron 框架跑通 DeepSeek-V3-671B 的 GRPO 训练。
技术细节与参数说明以 Verl 官方文档 为准。


你将得到什么

按以下步骤操作后,你将在 Atlas 200T A2 Box16 上使用 Verl + Megatron 框架完成 DeepSeek-V3-671B 的 GRPO 训练。

本页不解决以下问题:宿主机未安装昇腾驱动、无对应机型——请先完成 昇腾环境准备。


目录

  • 0. 开始前确认(30 秒)
  • 1. 环境准备
  • 2. 下载模型与数据集
  • 3. 启动训练
  • 4. 常见问题

0. 开始前确认(30 秒)

在宿主机执行以下命令(有正常输出即可进入下一步):

npu-smi info
python --version
  • 机型:官方验证需 Atlas 200T A2 Box16。
  • GPU 数量:需要 16 卡。

1. 环境准备

1.1 安装基础环境

参考 Verl Ascend Quickstart:

软件版本
Python>= 3.10, <3.12
CANN== 8.5.0
torch== 2.8.0
torch_npu== 2.8.0

1.2 安装 MindSpeed 与 Megatron

# 安装 MindSpeed
git clone https://gitcode.com/Ascend/MindSpeed.git
cd MindSpeed && git checkout 2.3.0_core_r0.12.1 && cd ..

# 安装 Megatron-LM
git clone --depth 1 --branch core_v0.12.1 https://github.com/NVIDIA/Megatron-LM.git

# 安装
pip install -e MindSpeed
pip install -e Megatron-LM
pip install mbridge

1.3 安装 vllm & verl

source /usr/local/Ascend/ascend-toolkit/set_env.sh
source /usr/local/Ascend/nnal/atb/set_env.sh

git clone --depth 1 --branch v0.13.0 https://github.com/vllm-project/vllm.git
cd vllm && pip install -r requirements/build.txt
VLLM_TARGET_DEVICE=empty pip install -v -e . && cd ..

git clone -b releases/v0.13.0 https://github.com/vllm-project/vllm-ascend.git
cd vllm-ascend && pip install -r requirements.txt
export COMPILE_CUSTOM_KERNELS=1 && pip install -v -e . && cd ..

git clone --recursive https://github.com/volcengine/verl.git
cd verl && pip install -r requirements-npu.txt && pip install -v -e . && cd ..

2. 下载模型与数据集

2.1 下载模型权重

来源链接
HuggingFacedeepseek-ai/DeepSeek-V3

2.2 下载并预处理数据集

python3 examples/data_preprocess/gsm8k.py --local_save_dir ~/data/gsm8k

3. 启动训练

使用 Megatron 后端 进行训练(671B 大模型推荐):

set -x

export VLLM_ATTENTION_BACKEND=XFORMERS

python3 -m verl.trainer.main_ppo \
   algorithm.adv_estimator=grpo \
   data.train_files=$HOME/data/gsm8k/train.parquet \
   data.val_files=$HOME/data/gsm8k/test.parquet \
   data.train_batch_size=8 \
   data.max_prompt_length=512 \
   data.max_response_length=128 \
   data.filter_overlong_prompts=True \
   data.truncation='error' \
   actor_rollout_ref.model.path=deepseek-ai/DeepSeek-V3 \
   actor_rollout_ref.actor.optim.lr=1e-6 \
   actor_rollout_ref.model.use_remove_padding=False \
   actor_rollout_ref.actor.entropy_coeff=0.001 \
   actor_rollout_ref.actor.ppo_mini_batch_size=8 \
   actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=1 \
   actor_rollout_ref.actor.use_kl_loss=True \
   actor_rollout_ref.actor.kl_loss_coef=0.001 \
   actor_rollout_ref.model.enable_gradient_checkpointing=True \
   actor_rollout_ref.actor.strategy=megatron \
   actor_rollout_ref.actor.megatron.override_transformer_config.use_flash_attn=True \
   actor_rollout_ref.rollout.tensor_model_parallel_size=4 \
   actor_rollout_ref.rollout.pipeline_model_parallel_size=4 \
   actor_rollout_ref.rollout.name=vllm \
   actor_rollout_ref.rollout.gpu_memory_utilization=0.6 \
   actor_rollout_ref.rollout.n=5 \
   actor_rollout_ref.ref.strategy=megatron \
   algorithm.kl_ctrl.kl_coef=0.001 \
   trainer.critic_warmup=0 \
   trainer.logger=console \
   trainer.project_name='verl_grpo_example' \
   trainer.experiment_name='deepseek_v3_671b_grpo' \
   trainer.n_gpus_per_node=16 \
   trainer.nnodes=1 \
   trainer.save_freq=-1 \
   trainer.test_freq=5 \
   trainer.total_epochs=1 $@

4. 常见问题

现象建议
671B 模型显存不足使用 Megatron 后端 + 开启梯度 checkpointing
训练报错检查 MindSpeed 和 Megatron-LM 版本是否匹配
并行配置671B 模型需要配置 TP=4, PP=4 或更大

相关链接

说明链接
Verl 官方文档文档
Ascend 快速开始ascend_quick_start
DeepSeek-V3 论文arXiv
GitHub 仓库volcengine/verl

*环境版本与训练参数随 Verl 发布更新,若与官方文档冲突,以官方为准。