TeleChat2.5-35B

模型介绍

TeleChat2.5 是 TeleChat 系列新版通用问答模型，由中国电信人工智能研究院（TeleAI）基于国产算力研发训练，包括了 TeleChat2.5-35B 与 TeleChat2.5-115B。TeleChat2.5 基于最新强化的 TeleBase2.5 系列模型进行训练，在理科、通用问答、Function Call等任务上有显著的效果提升。TeleChat2.5 的微调方法延续了 TeleChat2 系列，具体请参考 TeleChat2。

训练策略

数据

为了提高模型训练数据的数量和质量，TeleChat2.5 在训练过程中采用了大量理科学科和编程领域的合成数据。在合成过程中，为了减少错误信息的引入，主要以基于知识点或知识片段的教育类知识合成为主。

基础模型训练

TeleChat2.5 采用了多阶段课程学习策略，在训练过程中逐步提升理科和编程类高密度知识数据的比例。每个训练阶段都使用比前一阶段质量更高、难度更大的数据，以实现持续的模型优化。
在最终训练阶段，为了平衡模型在各个维度的能力表现，选取了不同训练阶段效果较优的多个模型，并基于各模型的综合表现进行参数加权融合，其中权重分配与模型性能呈正相关。

后训练阶段

TeleChat2.5采用分阶段优化的模型训练策略：

融合优化阶段：整合复杂推理与通用问答能力，针对语言理解、数理逻辑等薄弱任务进行解构重组。通过重构任务框架并融合多维度解题思路，生成优化后的通用答案集。此阶段答案长度会适度增加，并基于优化数据实施微调训练。
能力强化阶段：针对数理逻辑与编程类任务，通过注入结构化解题思路，结合基于规则的强化学习奖励机制，显著提升模型对复杂任务的理解与处理能力。
泛化提升阶段：面向安全合规、指令响应、函数调用、数学推理、代码生成等十余种任务类型进行系统性强化学习增强，全面提升模型的通用任务处理能力。

效果评测

模型	MATH-500	AlignBench	BFCL(avg v1&v2)
Qwen2.5-32B	82	7.39	81.11
Qwen2.5-72B	82	7.62	79.15
Qwen3-32B（通用）	83	8.23	81.84
GPT-4o-1120	75	7.49	78.66
TeleChat2-35B	65	6.97	75.32
TeleChat2-115B	75	7.56	77.47
TeleChat2.5-35B	85	7.73	78.28
TeleChat2.5-115B	87	7.93	83.39

快速开始

TeleChat2.5-35B 推理至少需要1台（2卡）Atlas 800T A2（64G显存规格）服务器，需要具有外网访问权限（下载权重和镜像）。昇思MindSpore提供了TeleChat2.5-35B 推理可用的Docker容器镜像，供开发者快速体验。

模型下载

社区	下载地址
魔乐社区	https://modelers.cn/models/MindSpore-Lab/TeleChat2.5-35B

执行以下命令为自定义下载路径/home/teleAI/TeleChat2.5-35B添加白名单：

export HUB_WHITE_LIST_PATHS=/home/teleAI/TeleChat2.5-35B

执行以下 Python 脚本从魔乐社区下载昇思 MindSpore 版本的 TeleChat2.5-35B 文件至指定路径 /home/teleAI/TeleChat2.5-35B （需提前pip安装openmind_hub库，相关参考文档可参考：openMind Hub Client使用教程）。下载的文件包含模型代码、权重、分词模型和示例代码，占用约 67GB 的磁盘空间：

from openmind_hub import snapshot_download

snapshot_download(
    repo_id="MindSpore-Lab/TeleChat2.5-35B",
    local_dir="/home/teleAI/TeleChat2.5-35B",
    local_dir_use_symlinks=False,
)

下载完成的模型文件夹目录结构如下：

TeleChat2.5-35B/
    ├── config.json                               # 模型json配置文件
    ├── configuration_telechat2.py
    ├── generation_config.json
    ├── generation_utils.py
    ├── modeling_telechat2.py
    ├── special_tokens_map.json
    ├── tokenization_telechat2.py
    ├── tokenizer.model                           # 词表model文件
    ├── tokenizer_config.json                     # 词表配置文件
    ├── model-000xx-of-000xx.safetensors          # 模型权重文件
    └── model.safetensors.index.json              # 模型权重映射文件

注意事项：

/home/teleAI/TeleChat2.5-35B 可修改为容器可访问的自定义路径，确保该路径有足够的磁盘空间（约 67GB）。
下载时间可能因网络环境而异，建议在稳定的网络环境下操作。

下载昇思 MindSpore 推理容器镜像

执行以下 Shell 命令，拉取昇思 MindSpore TeleChat2.5-35B 推理容器镜像：

docker pull swr.cn-central-221.ovaijisuan.com/mindformers/mindspore_telechat_t1:20250430

启动容器

执行以下命令创建并启动容器：

docker run -it -u 0 --ipc=host  --network host \
--name vllm_telechat2.5 \
--privileged \
--device=/dev/davinci0 \
--device=/dev/davinci1 \
--device=/dev/davinci2 \
--device=/dev/davinci3 \
--device=/dev/davinci4 \
--device=/dev/davinci5 \
--device=/dev/davinci6 \
--device=/dev/davinci7 \
--device=/dev/davinci_manager \
--device=/dev/devmm_svm \
--device=/dev/hisi_hdc \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \
-v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \
-v /usr/local/sbin/:/usr/local/sbin/ \
-v /var/log/npu/conf/slog/slog.conf:/var/log/npu/conf/slog/slog.conf \
-v /var/log/npu/slog/:/var/log/npu/slog \
-v /var/log/npu/profiling/:/var/log/npu/profiling \
-v /var/log/npu/dump/:/var/log/npu/dump \
-v /var/log/npu/:/usr/slog \
-v /home/:/home \
swr.cn-central-221.ovaijisuan.com/mindformers/mindspore_telechat_t1:20250430 \
/bin/bash

注意：

若模型下载目录不在 /home/ 路径下，需要在 docker run 命令中映射相关的路径（修改-v /home/:/home \），使容器可以访问对应路径中的文件；
后续所有操作均在容器中进行。

服务化部署

注意： 首先通过 npu-smi info 查看服务器状态，确保卡资源未被其他进程占用。

1. 配置环境变量：

export MINDFORMERS_MODEL_CONFIG=/usr/local/Python-3.11/lib/python3.11/site-packages/research/telechat2/predict_telechat_35b.yaml

2.一键启动vLLM推理

在服务器上执行以下命令启动vLLM推理服务：

python3 -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model "/home/teleAI/TeleChat2.5-35B" --port=8000 --trust_remote_code --tensor_parallel_size=2 --max-num-seqs=256 --max_model_len=8192 --max-num-batched-tokens=8192 --block-size=32 --gpu-memory-utilization=0.93

注意： 其中/home/teleAI/TeleChat2.5-35B需要修改为实际的模型目录

看到以下日志打印，说明vLLM推理服务启动成功：

INFO:     Started server process [xxxxx]
INFO:     Waiting for application startup.
INFO:     Application startup complete.

3. 执行推理请求测试

执行以下命令发送推理请求进行测试：

curl http://localhost:8000/v1/completions -H "Content-Type: application/json" -d '{
    "model": "/home/teleAI/TeleChat2.5-35B", 
    "prompt": "生抽与老抽的区别？", 
    "max_tokens": 1024, 
    "temperature": 0, 
    "repetition_penalty":1.01
}'

推理请求报文配置注意事项：

model 字段需要配置为实际的网络权重路径。
prompt 字段可修改为实际的推理请求问题。
max_tokens 字段为推理输出最大token长度，可按需修改。

推理结果：

生抽和老抽都是经过酿造发酵加工而成的酱油。 
生抽颜色比较淡，呈红褐色。 
生抽是用来一般的烹调用的，吃起来味道较咸。 
老抽是在生抽的基础上加入焦糖，经特殊工艺制成的浓色酱油，呈棕褐色有光泽。 
老抽味道较为鲜美，吃到嘴里后有种回甘的感觉。 
老抽一般用来给食品着色用。比如做红烧鱼、红烧狮子头、卤水鸭、卤猪蹄等需要用酱油来增色的食品时，就必须使用老抽酱油了。

声明

本文档提供的模型代码、权重文件和部署镜像，当前仅限于基于昇思MindSpore AI框架体验TeleChat2.5-35B模型的推理效果，不支持生产环境部署。
我们在此声明，不要使用 TeleChat2.5 系列模型及其衍生模型进行任何危害国家社会安全或违法的活动。同时，我们也要求使用者不要将 TeleChat2.5 系列模型用于没有安全审查和备案的互联网服务。我们希望所有使用者遵守上述原则，确保科技发展在合法合规的环境下进行。