HuggingFace镜像/TeleChat2.5-35B
模型介绍文件和版本分析
下载使用量0

TeleChat2.5-35B

目录

  • 模型介绍
  • 快速开始
  • 服务化部署
  • 声明

模型介绍

TeleChat2.5 是 TeleChat 系列新版通用问答模型,由中国电信人工智能研究院(TeleAI)基于国产算力研发训练,包括了 TeleChat2.5-35B 与 TeleChat2.5-115B。TeleChat2.5 基于最新强化的 TeleBase2.5 系列模型进行训练,在理科、通用问答、Function Call等任务上有显著的效果提升。TeleChat2.5 的微调方法延续了 TeleChat2 系列,具体请参考 TeleChat2。

训练策略

数据

  • 为了提高模型训练数据的数量和质量,TeleChat2.5 在训练过程中采用了大量理科学科和编程领域的合成数据。在合成过程中,为了减少错误信息的引入,主要以基于知识点或知识片段的教育类知识合成为主。

基础模型训练

  • TeleChat2.5 采用了多阶段课程学习策略,在训练过程中逐步提升理科和编程类高密度知识数据的比例。每个训练阶段都使用比前一阶段质量更高、难度更大的数据,以实现持续的模型优化。
  • 在最终训练阶段,为了平衡模型在各个维度的能力表现,选取了不同训练阶段效果较优的多个模型,并基于各模型的综合表现进行参数加权融合,其中权重分配与模型性能呈正相关。

后训练阶段

TeleChat2.5采用分阶段优化的模型训练策略:

  • 融合优化阶段:整合复杂推理与通用问答能力,针对语言理解、数理逻辑等薄弱任务进行解构重组。通过重构任务框架并融合多维度解题思路,生成优化后的通用答案集。此阶段答案长度会适度增加,并基于优化数据实施微调训练。
  • 能力强化阶段:针对数理逻辑与编程类任务,通过注入结构化解题思路,结合基于规则的强化学习奖励机制,显著提升模型对复杂任务的理解与处理能力。
  • 泛化提升阶段:面向安全合规、指令响应、函数调用、数学推理、代码生成等十余种任务类型进行系统性强化学习增强,全面提升模型的通用任务处理能力。

效果评测

模型MATH-500AlignBenchBFCL(avg v1&v2)
Qwen2.5-32B827.3981.11
Qwen2.5-72B827.6279.15
Qwen3-32B(通用)838.2381.84
GPT-4o-1120757.4978.66
TeleChat2-35B656.9775.32
TeleChat2-115B757.5677.47
TeleChat2.5-35B857.7378.28
TeleChat2.5-115B877.9383.39

快速开始

TeleChat2.5-35B 推理至少需要1台(2卡)Atlas 800T A2(64G显存规格)服务器,需要具有外网访问权限(下载权重和镜像)。昇思MindSpore提供了TeleChat2.5-35B 推理可用的Docker容器镜像,供开发者快速体验。

模型下载

社区下载地址
魔乐社区https://modelers.cn/models/MindSpore-Lab/TeleChat2.5-35B

执行以下命令为自定义下载路径/home/teleAI/TeleChat2.5-35B添加白名单:

export HUB_WHITE_LIST_PATHS=/home/teleAI/TeleChat2.5-35B

执行以下 Python 脚本从魔乐社区下载昇思 MindSpore 版本的 TeleChat2.5-35B 文件至指定路径 /home/teleAI/TeleChat2.5-35B (需提前pip安装openmind_hub库,相关参考文档可参考:openMind Hub Client使用教程)。下载的文件包含模型代码、权重、分词模型和示例代码,占用约 67GB 的磁盘空间:

from openmind_hub import snapshot_download

snapshot_download(
    repo_id="MindSpore-Lab/TeleChat2.5-35B",
    local_dir="/home/teleAI/TeleChat2.5-35B",
    local_dir_use_symlinks=False,
)

下载完成的模型文件夹目录结构如下:

TeleChat2.5-35B/
    ├── config.json                               # 模型json配置文件
    ├── configuration_telechat2.py
    ├── generation_config.json
    ├── generation_utils.py
    ├── modeling_telechat2.py
    ├── special_tokens_map.json
    ├── tokenization_telechat2.py
    ├── tokenizer.model                           # 词表model文件
    ├── tokenizer_config.json                     # 词表配置文件
    ├── model-000xx-of-000xx.safetensors          # 模型权重文件
    └── model.safetensors.index.json              # 模型权重映射文件

注意事项:

  • /home/teleAI/TeleChat2.5-35B 可修改为容器可访问的自定义路径,确保该路径有足够的磁盘空间(约 67GB)。
  • 下载时间可能因网络环境而异,建议在稳定的网络环境下操作。

下载昇思 MindSpore 推理容器镜像

执行以下 Shell 命令,拉取昇思 MindSpore TeleChat2.5-35B 推理容器镜像:

docker pull swr.cn-central-221.ovaijisuan.com/mindformers/mindspore_telechat_t1:20250430

启动容器

执行以下命令创建并启动容器:

docker run -it -u 0 --ipc=host  --network host \
--name vllm_telechat2.5 \
--privileged \
--device=/dev/davinci0 \
--device=/dev/davinci1 \
--device=/dev/davinci2 \
--device=/dev/davinci3 \
--device=/dev/davinci4 \
--device=/dev/davinci5 \
--device=/dev/davinci6 \
--device=/dev/davinci7 \
--device=/dev/davinci_manager \
--device=/dev/devmm_svm \
--device=/dev/hisi_hdc \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \
-v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \
-v /usr/local/sbin/:/usr/local/sbin/ \
-v /var/log/npu/conf/slog/slog.conf:/var/log/npu/conf/slog/slog.conf \
-v /var/log/npu/slog/:/var/log/npu/slog \
-v /var/log/npu/profiling/:/var/log/npu/profiling \
-v /var/log/npu/dump/:/var/log/npu/dump \
-v /var/log/npu/:/usr/slog \
-v /home/:/home \
swr.cn-central-221.ovaijisuan.com/mindformers/mindspore_telechat_t1:20250430 \
/bin/bash

注意:

  • 若模型下载目录不在 /home/ 路径下,需要在 docker run 命令中映射相关的路径(修改-v /home/:/home \),使容器可以访问对应路径中的文件;
  • 后续所有操作均在容器中进行。

服务化部署

注意: 首先通过 npu-smi info 查看服务器状态,确保卡资源未被其他进程占用。

1. 配置环境变量:

export MINDFORMERS_MODEL_CONFIG=/usr/local/Python-3.11/lib/python3.11/site-packages/research/telechat2/predict_telechat_35b.yaml

2.一键启动vLLM推理

在服务器上执行以下命令启动vLLM推理服务:

python3 -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model "/home/teleAI/TeleChat2.5-35B" --port=8000 --trust_remote_code --tensor_parallel_size=2 --max-num-seqs=256 --max_model_len=8192 --max-num-batched-tokens=8192 --block-size=32 --gpu-memory-utilization=0.93

注意: 其中/home/teleAI/TeleChat2.5-35B需要修改为实际的模型目录

看到以下日志打印,说明vLLM推理服务启动成功:

INFO:     Started server process [xxxxx]
INFO:     Waiting for application startup.
INFO:     Application startup complete.

3. 执行推理请求测试

执行以下命令发送推理请求进行测试:

curl http://localhost:8000/v1/completions -H "Content-Type: application/json" -d '{
    "model": "/home/teleAI/TeleChat2.5-35B", 
    "prompt": "生抽与老抽的区别?", 
    "max_tokens": 1024, 
    "temperature": 0, 
    "repetition_penalty":1.01
}'

推理请求报文配置注意事项:

  • model 字段需要配置为实际的网络权重路径。
  • prompt 字段可修改为实际的推理请求问题。
  • max_tokens 字段为推理输出最大token长度,可按需修改。

推理结果:

生抽和老抽都是经过酿造发酵加工而成的酱油。 
生抽颜色比较淡,呈红褐色。 
生抽是用来一般的烹调用的,吃起来味道较咸。 
老抽是在生抽的基础上加入焦糖,经特殊工艺制成的浓色酱油,呈棕褐色有光泽。 
老抽味道较为鲜美,吃到嘴里后有种回甘的感觉。 
老抽一般用来给食品着色用。比如做红烧鱼、红烧狮子头、卤水鸭、卤猪蹄等需要用酱油来增色的食品时,就必须使用老抽酱油了。

声明

  • 本文档提供的模型代码、权重文件和部署镜像,当前仅限于基于昇思MindSpore AI框架体验TeleChat2.5-35B模型的推理效果,不支持生产环境部署。
  • 我们在此声明,不要使用 TeleChat2.5 系列模型及其衍生模型进行任何危害国家社会安全或违法的活动。同时,我们也要求使用者不要将 TeleChat2.5 系列模型用于没有安全审查和备案的互联网服务。我们希望所有使用者遵守上述原则,确保科技发展在合法合规的环境下进行。