GLM-Z1-Rumination-32B-0414推理使用指南

模型介绍

GLM 系列迎来了新成员--GLM-4-32B-0414 系列模型，拥有 320 亿个参数。其性能可与 OpenAI 的 GPT 系列和 DeepSeek 的 V3/R1 系列相媲美。它还支持非常方便用户的本地部署功能。GLM-4-32B-Base-0414 在 15T 的高质量数据（包括大量推理型合成数据）上进行了预训练。这为后续的强化学习扩展奠定了基础。在后训练阶段，我们针对对话场景采用了人类偏好对齐。此外，我们还利用拒绝采样和强化学习等技术，提高了模型在指令跟踪、工程代码和函数调用方面的性能，从而增强了代理任务所需的原子能力。GLM-4-32B-0414 在工程代码、工件生成、函数调用、基于搜索的问答和报告生成方面取得了良好的成绩。特别是在代码生成或特定问答任务等几个基准测试中，GLM-4-32B-Base-0414 的性能可与 GPT-4o 和 DeepSeek-V3-0324 (671B) 等大型模型相媲美。

GLM-Z1-32B-0414 是一个具有深度思维能力的推理模型。它是在 GLM-4-32B-0414 的基础上，通过冷启动、扩展强化学习和进一步的任务训练（包括数学、代码和逻辑）开发出来的。与基础模型相比，GLM-Z1-32B-0414 显著提高了数学能力和解决复杂任务的能力。在训练过程中，我们还引入了基于对战排序反馈的通用强化学习技术，从而增强了模型的通用能力。

GLM-Z1-Rumination-32B-0414 是一个具有沉思能力的深度推理模型（与 OpenAI 的深度研究相对比）。与典型的深度思维模型不同，沉思模型能够进行更深入、更长时间的思考，以解决更开放、更复杂的问题（例如，撰写两座城市人工智能发展及其未来发展计划的对比分析）。Z1-Rumination 是通过扩展端到端强化学习进行训练的，其回答由地面真实答案或评分标准进行评分，并能在深度思考过程中利用搜索工具来处理复杂的任务。该模型在研究型写作和复杂任务方面都有明显改善。

最后，GLM-Z1-9B-0414 是一个惊喜。我们采用了上述所有技术来训练一个小型模型（9B）。GLM-Z1-9B-0414 在数学推理和一般任务中表现出了卓越的能力。它的整体性能在所有相同规模的开源模型中名列前茅。特别是在资源有限的情况下，该模型在效率和效果之间实现了极佳的平衡，为寻求轻量级部署的用户提供了一个强大的选择。

下载链接

社区	下载地址
魔乐社区	https://modelers.cn/models/MindSpore-Lab/GLM-Z1-Rumination-32B-0414

快速开始

GLM-Z1-Rumination-32B-0414推理至少需要1台（2卡）Atlas 800T A2（64G）服务器服务器（基于BF16权重）。昇思MindSpore提供了GLM-Z1-Rumination-32B-0414推理可用的Docker容器镜像，供开发者快速体验。

下载昇思 MindSpore 推理容器镜像

执行以下 Shell 命令，拉取昇思 MindSpore GLM-Z1 推理容器镜像：

docker pull swr.cn-central-221.ovaijisuan.com/mindformers/mindspore_glm_z1:20250414

启动容器

执行以下命令创建并启动容器：

docker run -it --privileged  --name=GLM-Z1 --net=host \
   --shm-size 500g \
   --device=/dev/davinci0 \
   --device=/dev/davinci1 \
   --device=/dev/davinci2 \
   --device=/dev/davinci3 \
   --device=/dev/davinci4 \
   --device=/dev/davinci5 \
   --device=/dev/davinci6 \
   --device=/dev/davinci7 \
   --device=/dev/davinci_manager \
   --device=/dev/hisi_hdc \
   --device /dev/devmm_svm \
   -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
   -v /usr/local/Ascend/firmware:/usr/local/Ascend/firmware \
   -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \
   -v /usr/local/sbin:/usr/local/sbin \
   -v /etc/hccn.conf:/etc/hccn.conf \
   swr.cn-central-221.ovaijisuan.com/mindformers/mindspore_glm_z1:20250414
   /bin/bash

注意事项：

如果部署在多机上，每台机器中容器的hostname不能重复。如果有部分宿主机的hostname是一致的，需要在起容器的时候修改容器的hostname。
后续所有操作均在容器内操作。

模型下载

执行以下命令为自定义下载路径 /home/work/GLM-Z1-Rumination-32B-0414 添加白名单：

export HUB_WHITE_LIST_PATHS=/home/work/GLM-Z1-Rumination-32B-0414

执行以下 Python 脚本从魔乐社区下载昇思 MindSpore 版本的 GLM-Z1-Rumination-32B-0414 文件至指定路径 /home/work/GLM-Z1-Rumination-32B-0414 。下载的文件包含模型代码、权重、分词模型和示例代码，占用约 62GB 的磁盘空间：

from openmind_hub import snapshot_download

snapshot_download(
    repo_id="MindSpore-Lab/GLM-Z1-Rumination-32B-0414",
    local_dir="/home/work/GLM-Z1-Rumination-32B-0414",
    local_dir_use_symlink=False
)

下载完成的 /home/work/GLM-Z1-Rumination-32B-0414 文件夹目录结构如下：

GLM-Z1-Rumination-32B-0414
  ├── config.json                               # 模型json配置文件
  ├── tokenizer.model                           # 词表model文件
  ├── tokenizer_config.json                     # 词表配置文件
  ├── predict_glm_z1_rumination_32b.yaml                   # 模型yaml配置文件
  └── weights
        ├── model-xxxxx-of-xxxxx.safetensors    # 模型权重文件
        ├── tokenizer.json                      # 模型词表文件
        ├── xxxxx                               # 若干其他文件
        └── model.safetensors.index.json        # 模型权重映射文件

注意事项：

/home/work/GLM-Z1-Rumination-32B-0414 可修改为自定义路径，确保该路径有足够的磁盘空间（约 62GB）。
下载时间可能因网络环境而异，建议在稳定的网络环境下操作。

服务化部署

1. 修改模型配置文件

在 predict_glm_z1_rumination_32b.yaml 中对以下配置进行修改(若为默认路径则无需修改)：

load_checkpoint: '/home/work/GLM-Z1-Rumination-32B-0414/weights'         # 配置为实际的模型绝对路径
auto_trans_ckpt: True                                  # 打开权重自动切分，自动将权重转换为分布式任务所需的形式
load_ckpt_format: 'safetensors'
processor:
  tokenizer:
    vocab_file: "/home/work/GLM-Z1-Rumination-32B-0414/tokenizer.model"  # 配置为tokenizer文件的绝对路径

2.一键启动MindIE

MindSpore Transformers提供了一键拉起MindIE脚本，脚本中已预置环境变量设置和服务化配置，仅需输入模型文件目录后即可快速拉起服务。进入 mindformers/scripts 目录下，执行MindIE启动脚本

cd /home/work/mindformers/scripts
bash run_mindie.sh --model-name GLM-Z1-Rumination-32B-0414 --model-path /home/work/GLM-Z1-Rumination-32B-0414 --max-prefill-batch-size 1

参数说明

--model-name：设置模型名称
--model-path：设置模型目录路径

查看日志：

tail -f output.log

当log日志中出现 Daemon start success! ，表示服务启动成功。

3. 执行推理请求测试

执行以下命令发送流式推理请求进行测试：

curl -w "\ntime_total=%{time_total}\n" -H "Accept: application/json" -H "Content-type: application/json" -X POST -d '{"inputs": "请介绍一个北京的景点", "parameters": {"do_sample": false, "max_new_tokens": 128}, "stream": false}' http://127.0.0.1:1025/generate_stream &

声明

本文档提供的模型代码、权重文件和部署镜像，当前仅限于基于昇思MindSpore AI框架体验GLM-Z1-Rumination-32B-0414的部署效果，不支持生产环境部署。相关使用问题请反馈至Issue。

GLM-Z1-Rumination-32B-0414推理使用指南

模型介绍

下载链接

社区	下载地址
魔乐社区	https://modelers.cn/models/MindSpore-Lab/GLM-Z1-Rumination-32B-0414

快速开始

下载昇思 MindSpore 推理容器镜像

执行以下 Shell 命令，拉取昇思 MindSpore GLM-Z1 推理容器镜像：

docker pull swr.cn-central-221.ovaijisuan.com/mindformers/mindspore_glm_z1:20250414

启动容器

执行以下命令创建并启动容器：

docker run -it --privileged  --name=GLM-Z1 --net=host \
   --shm-size 500g \
   --device=/dev/davinci0 \
   --device=/dev/davinci1 \
   --device=/dev/davinci2 \
   --device=/dev/davinci3 \
   --device=/dev/davinci4 \
   --device=/dev/davinci5 \
   --device=/dev/davinci6 \
   --device=/dev/davinci7 \
   --device=/dev/davinci_manager \
   --device=/dev/hisi_hdc \
   --device /dev/devmm_svm \
   -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
   -v /usr/local/Ascend/firmware:/usr/local/Ascend/firmware \
   -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \
   -v /usr/local/sbin:/usr/local/sbin \
   -v /etc/hccn.conf:/etc/hccn.conf \
   swr.cn-central-221.ovaijisuan.com/mindformers/mindspore_glm_z1:20250414
   /bin/bash

注意事项：

如果部署在多机上，每台机器中容器的hostname不能重复。如果有部分宿主机的hostname是一致的，需要在起容器的时候修改容器的hostname。
后续所有操作均在容器内操作。

模型下载

执行以下命令为自定义下载路径 /home/work/GLM-Z1-Rumination-32B-0414 添加白名单：

export HUB_WHITE_LIST_PATHS=/home/work/GLM-Z1-Rumination-32B-0414

from openmind_hub import snapshot_download

snapshot_download(
    repo_id="MindSpore-Lab/GLM-Z1-Rumination-32B-0414",
    local_dir="/home/work/GLM-Z1-Rumination-32B-0414",
    local_dir_use_symlink=False
)

下载完成的 /home/work/GLM-Z1-Rumination-32B-0414 文件夹目录结构如下：

GLM-Z1-Rumination-32B-0414
  ├── config.json                               # 模型json配置文件
  ├── tokenizer.model                           # 词表model文件
  ├── tokenizer_config.json                     # 词表配置文件
  ├── predict_glm_z1_rumination_32b.yaml                   # 模型yaml配置文件
  └── weights
        ├── model-xxxxx-of-xxxxx.safetensors    # 模型权重文件
        ├── tokenizer.json                      # 模型词表文件
        ├── xxxxx                               # 若干其他文件
        └── model.safetensors.index.json        # 模型权重映射文件

注意事项：

/home/work/GLM-Z1-Rumination-32B-0414 可修改为自定义路径，确保该路径有足够的磁盘空间（约 62GB）。
下载时间可能因网络环境而异，建议在稳定的网络环境下操作。

服务化部署

1. 修改模型配置文件

在 predict_glm_z1_rumination_32b.yaml 中对以下配置进行修改(若为默认路径则无需修改)：

load_checkpoint: '/home/work/GLM-Z1-Rumination-32B-0414/weights'         # 配置为实际的模型绝对路径
auto_trans_ckpt: True                                  # 打开权重自动切分，自动将权重转换为分布式任务所需的形式
load_ckpt_format: 'safetensors'
processor:
  tokenizer:
    vocab_file: "/home/work/GLM-Z1-Rumination-32B-0414/tokenizer.model"  # 配置为tokenizer文件的绝对路径

2.一键启动MindIE

cd /home/work/mindformers/scripts
bash run_mindie.sh --model-name GLM-Z1-Rumination-32B-0414 --model-path /home/work/GLM-Z1-Rumination-32B-0414 --max-prefill-batch-size 1

参数说明

--model-name：设置模型名称
--model-path：设置模型目录路径

查看日志：

tail -f output.log

当log日志中出现 Daemon start success! ，表示服务启动成功。

3. 执行推理请求测试

执行以下命令发送流式推理请求进行测试：

curl -w "\ntime_total=%{time_total}\n" -H "Accept: application/json" -H "Content-type: application/json" -X POST -d '{"inputs": "请介绍一个北京的景点", "parameters": {"do_sample": false, "max_new_tokens": 128}, "stream": false}' http://127.0.0.1:1025/generate_stream &