TeleChat2.5 是 TeleChat 系列新版通用问答模型,由中国电信人工智能研究院(TeleAI)基于国产算力研发训练,包括了 TeleChat2.5-35B 与 TeleChat2.5-115B。TeleChat2.5 基于最新强化的 TeleBase2.5 系列模型进行训练,在理科、通用问答、Function Call等任务上有显著的效果提升。TeleChat2.5 的微调方法延续了 TeleChat2 系列,具体请参考 TeleChat2。
TeleChat2.5采用分阶段优化的模型训练策略:
| 模型 | MATH-500 | AlignBench | BFCL(avg v1&v2) |
|---|---|---|---|
| Qwen2.5-32B | 82 | 7.39 | 81.11 |
| Qwen2.5-72B | 82 | 7.62 | 79.15 |
| Qwen3-32B(通用) | 83 | 8.23 | 81.84 |
| GPT-4o-1120 | 75 | 7.49 | 78.66 |
| TeleChat2-35B | 65 | 6.97 | 75.32 |
| TeleChat2-115B | 75 | 7.56 | 77.47 |
| TeleChat2.5-35B | 85 | 7.73 | 78.28 |
| TeleChat2.5-115B | 87 | 7.93 | 83.39 |
TeleChat2.5-35B 推理至少需要1台(2卡)Atlas 800T A2(64G显存规格)服务器,需要具有外网访问权限(下载权重和镜像)。昇思MindSpore提供了TeleChat2.5-35B 推理可用的Docker容器镜像,供开发者快速体验。
执行以下命令为自定义下载路径/home/teleAI/TeleChat2.5-35B添加白名单:
export HUB_WHITE_LIST_PATHS=/home/teleAI/TeleChat2.5-35B执行以下 Python 脚本从魔乐社区下载昇思 MindSpore 版本的 TeleChat2.5-35B 文件至指定路径 /home/teleAI/TeleChat2.5-35B (需提前pip安装openmind_hub库,相关参考文档可参考:openMind Hub Client使用教程)。下载的文件包含模型代码、权重、分词模型和示例代码,占用约 67GB 的磁盘空间:
from openmind_hub import snapshot_download
snapshot_download(
repo_id="MindSpore-Lab/TeleChat2.5-35B",
local_dir="/home/teleAI/TeleChat2.5-35B",
local_dir_use_symlinks=False,
)下载完成的模型文件夹目录结构如下:
TeleChat2.5-35B/
├── config.json # 模型json配置文件
├── configuration_telechat2.py
├── generation_config.json
├── generation_utils.py
├── modeling_telechat2.py
├── special_tokens_map.json
├── tokenization_telechat2.py
├── tokenizer.model # 词表model文件
├── tokenizer_config.json # 词表配置文件
├── model-000xx-of-000xx.safetensors # 模型权重文件
└── model.safetensors.index.json # 模型权重映射文件注意事项:
/home/teleAI/TeleChat2.5-35B 可修改为容器可访问的自定义路径,确保该路径有足够的磁盘空间(约 67GB)。执行以下 Shell 命令,拉取昇思 MindSpore TeleChat2.5-35B 推理容器镜像:
docker pull swr.cn-central-221.ovaijisuan.com/mindformers/mindspore_telechat_t1:20250430执行以下命令创建并启动容器:
docker run -it -u 0 --ipc=host --network host \
--name vllm_telechat2.5 \
--privileged \
--device=/dev/davinci0 \
--device=/dev/davinci1 \
--device=/dev/davinci2 \
--device=/dev/davinci3 \
--device=/dev/davinci4 \
--device=/dev/davinci5 \
--device=/dev/davinci6 \
--device=/dev/davinci7 \
--device=/dev/davinci_manager \
--device=/dev/devmm_svm \
--device=/dev/hisi_hdc \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \
-v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \
-v /usr/local/sbin/:/usr/local/sbin/ \
-v /var/log/npu/conf/slog/slog.conf:/var/log/npu/conf/slog/slog.conf \
-v /var/log/npu/slog/:/var/log/npu/slog \
-v /var/log/npu/profiling/:/var/log/npu/profiling \
-v /var/log/npu/dump/:/var/log/npu/dump \
-v /var/log/npu/:/usr/slog \
-v /home/:/home \
swr.cn-central-221.ovaijisuan.com/mindformers/mindspore_telechat_t1:20250430 \
/bin/bash注意:
/home/ 路径下,需要在 docker run 命令中映射相关的路径(修改-v /home/:/home \),使容器可以访问对应路径中的文件;注意: 首先通过 npu-smi info 查看服务器状态,确保卡资源未被其他进程占用。
export MINDFORMERS_MODEL_CONFIG=/usr/local/Python-3.11/lib/python3.11/site-packages/research/telechat2/predict_telechat_35b.yaml在服务器上执行以下命令启动vLLM推理服务:
python3 -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model "/home/teleAI/TeleChat2.5-35B" --port=8000 --trust_remote_code --tensor_parallel_size=2 --max-num-seqs=256 --max_model_len=8192 --max-num-batched-tokens=8192 --block-size=32 --gpu-memory-utilization=0.93注意: 其中/home/teleAI/TeleChat2.5-35B需要修改为实际的模型目录
看到以下日志打印,说明vLLM推理服务启动成功:
INFO: Started server process [xxxxx]
INFO: Waiting for application startup.
INFO: Application startup complete.执行以下命令发送推理请求进行测试:
curl http://localhost:8000/v1/completions -H "Content-Type: application/json" -d '{
"model": "/home/teleAI/TeleChat2.5-35B",
"prompt": "生抽与老抽的区别?",
"max_tokens": 1024,
"temperature": 0,
"repetition_penalty":1.01
}'推理请求报文配置注意事项:
model 字段需要配置为实际的网络权重路径。prompt 字段可修改为实际的推理请求问题。max_tokens 字段为推理输出最大token长度,可按需修改。推理结果:
生抽和老抽都是经过酿造发酵加工而成的酱油。
生抽颜色比较淡,呈红褐色。
生抽是用来一般的烹调用的,吃起来味道较咸。
老抽是在生抽的基础上加入焦糖,经特殊工艺制成的浓色酱油,呈棕褐色有光泽。
老抽味道较为鲜美,吃到嘴里后有种回甘的感觉。
老抽一般用来给食品着色用。比如做红烧鱼、红烧狮子头、卤水鸭、卤猪蹄等需要用酱油来增色的食品时,就必须使用老抽酱油了。