文心4.5系列模型(特别是基于MoE架构的A47B和A3B系列)的卓越能力源于多项核心技术突破:
多模态异构MoE预训练:通过文本与视觉模态的联合训练,模型能更精准捕捉跨模态信息关联,显著提升文本理解生成、图像理解及跨模态推理能力。我们创新性地采用异构MoE架构,结合模态隔离路由机制,并引入路由器正交损失与多模态令牌均衡损失,确保各模态特征独立学习的同时实现协同优化。
高效扩展基础设施:提出异构混合并行与分层负载均衡策略,通过节点内专家并行、内存优化流水线调度、FP8混合精度训练及细粒度重计算技术,实现惊人的训练吞吐量。推理阶段采用多专家并行协作方法与卷积编码量化算法,达成4比特/2比特无损量化。基于飞桨框架的动态角色切换PD解耦技术,显著提升MoE模型推理效率。
模态专项调优:针对实际应用场景需求,我们对基础模型进行模态专项优化。通用大语言模型(LLM)专注于文本理解与生成;视觉语言模型(VLM)强化图文交互能力,支持思维链与非思维链双模式。采用监督微调(SFT)、*直接偏好优化(DPO)及创新的统一偏好优化(UPO)*方法进行训练后优化。
为确保多模态联合训练稳定性,我们采用三阶段训练策略:前两阶段专注文本参数训练,构建强大的语言理解与长文本处理能力;最终阶段引入ViT图像特征提取器、特征转换适配器及视觉专家模块,实现图文模态的相互增强。经过万亿级token预训练,最终产出文心4.5多模态基础模型。
文心4.5多模态基础版采用MoE架构,总参数量280亿,单token激活参数量30亿。核心配置如下:
| 关键参数 | 数值 |
|---|---|
| 模态支持 | 文本 & 视觉 |
| 训练阶段 | 预训练 |
| 参数量(总/激活) | 280亿/30亿 |
| 层数 | 28 |
| 注意力头数(Q/KV) | 20 / 4 |
| 文本专家(总/激活) | 64 / 6 |
| 视觉专家(总/激活) | 64 / 6 |
| 共享专家 | 2 |
| 上下文长度 | 131072 |
我们正与社区合作完善对文心4.5系列模型的全面支持,敬请期待。
文心4.5系列模型遵循Apache 2.0开源协议,允许符合条款的商业使用。版权所有 (c) 2025 百度公司。保留所有权利。
如果您在项目中使用文心4.5模型,请引用我们的技术报告:
@misc{ernie2025technicalreport,
title={ERNIE 4.5 Technical Report},
author={Baidu ERNIE Team},
year={2025},
eprint={},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={}
}