ERNIE 4.5 模型的先进能力,尤其是基于 MoE 的 A47B 和 A3B 系列,得益于以下几项关键技术创新:
多模态异构 MoE 预训练: 我们的模型在文本和视觉模态上联合训练,以更好地捕捉多模态信息的细微差别,并提高涉及文本理解和生成、图像理解和跨模态推理的任务性能。为实现这一点,避免一种模态阻碍另一种模态的学习,我们设计了 异构 MoE 结构,引入了 模态隔离路由,并采用了 路由正交损失 和 多模态 Token 平衡损失。这些结构选择确保了两种模态都得到有效表示,在训练过程中相互强化。
扩展效率基础设施: 我们为 ERNIE 4.5 模型的有效训练提出了一种新颖的异构混合并行性和层次负载均衡策略。通过使用节点内专家并行性、内存高效的管道调度、FP8 混合精度训练和细粒度重计算方法,我们实现了显著的预训练吞吐量。对于推理,我们提出了 多专家并行协作 方法和 卷积代码量化 算法,以实现 4 位/2 位无损量化。此外,我们引入了具有动态角色切换的 PD 解耦,以有效利用资源,增强 ERNIE 4.5 MoE 模型的推理性能。基于 PaddlePaddle,ERNIE 4.5 在广泛的硬件平台上提供高性能推理。
模态特定后训练: 为了满足现实世界应用的多样化需求,我们对预训练模型的变体进行了特定模态的微调。我们的 LLM 优化用于通用目的的语言理解和生成。VLM 专注于视觉语言理解,并支持思考和和非思考模式。每个模型都采用了 监督微调(SFT)、直接偏好优化(DPO) 或一种名为 统一偏好优化(UPO) 的修改后强化学习方法进行后训练。
为确保多模态联合训练的稳定性,我们采用分阶段训练策略。在第一阶段和第二阶段,我们仅训练文本相关参数,使模型能够建立强大的基础语言理解能力和长文本处理能力。最终的跨模态阶段通过引入包括 ViT 图像特征提取、特征转换适配器和视觉专家等额外参数,扩展了图像和视频能力。在这一阶段,文本和视觉模态相互增强。在预训练了数万亿 Token 后,我们提取了文本相关参数,最终获得了 ERNIE-4.5-21B-A3B-Base。
ERNIE-4.5-21B-A3B-Base 是一个文本 MoE 基础模型,总参数量为 21B,每个 Token 激活参数量为 3B。以下是模型配置的详细信息:
| 关键字 | 值 |
|---|---|
| 模态 | 文本 |
| 训练阶段 | 预训练 |
| 参数量(总/激活) | 21B / 3B |
| 层数 | 28 |
| 头数(Q/KV) | 20 / 4 |
| 文本专家(总/激活) | 64 / 6 |
| 视觉专家(总/激活) | 64 / 6 |
| 共享专家 | 2 |
| 上下文长度 | 131072 |
ERNIEKit 是基于 PaddlePaddle 开发的训练工具包,专为 ERNIE 系列开源大型模型设计。它为指令微调(SFT、LoRA)和对齐训练(DPO)等场景提供了全面支持,确保最优性能。
使用示例:
# Download model
huggingface-cli download baidu/ERNIE-4.5-21B-A3B-Base-Paddle --local-dir baidu/ERNIE-4.5-21B-A3B-Base-Paddle
# SFT
erniekit train examples/configs/ERNIE-4.5-21B-A3B/sft/run_sft_lora_8k.yaml model_name_or_path=baidu/ERNIE-4.5-21B-A3B-Base-Paddle
# DPO
erniekit train examples/configs/ERNIE-4.5-21B-A3B/dpo/run_dpo_lora_8k.yaml model_name_or_path=baidu/ERNIE-4.5-21B-A3B-Base-Paddle为了获取更详尽的示例,包括带有LoRA的SFT、多GPU配置以及高级脚本,请参考 ERNIEKit 存储库中的示例文件夹。
可以使用以下命令通过FastDeploy快速完成服务部署。关于更详细的用法指南,请参考 FastDeploy 存储库。
注意:对于单卡部署,至少需要80G的GPU内存资源。
python -m fastdeploy.entrypoints.openai.api_server \
--model baidu/ERNIE-4.5-21B-A3B-Base-Paddle \
--port 8180 \
--metrics-port 8181 \
--engine-worker-queue-port 8182 \
--max-model-len 32768
--max-num-seqs 32transformers 库以下是一个代码片段示例,展示了如何利用模型根据给定输入生成内容。
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "baidu/ERNIE-4.5-21B-A3B-Base-PT"
# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True)
prompt = "Large language model is"
model_inputs = tokenizer([prompt], add_special_tokens=False, return_tensors="pt").to(model.device)
generated_ids = model.generate(
model_inputs.input_ids,
max_new_tokens=1024
)
result = tokenizer.decode(generated_ids[0].tolist(), skip_special_tokens=True)
print("result:", result)vLLM目前正在适配中,优先考虑使用我们分叉的仓库 vllm。我们正在与社区合作,全面支持ERNIE4.5模型,敬请期待。
vllm serve baidu/ERNIE-4.5-21B-A3B-Base-PT --trust-remote-codeERNIE 4.5 模型遵循 Apache License 2.0 提供。该许可证在遵守其条款和条件的前提下,允许商业用途。版权所有(c)2025 百度公司。保留所有权利。
若您认为 ERNIE 4.5 有用或希望在其项目中使用,请务必引用我们的技术报告:
@misc{ernie2025technicalreport,
title={ERNIE 4.5 Technical Report},
author={Baidu ERNIE Team},
year={2025},
eprint={},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={}
}