文心4.5系列模型(特别是基于混合专家的A47B和A3B版本)的卓越能力源于以下核心技术突破:
多模态异构混合专家预训练:通过文本与视觉模态的联合训练,模型能更精准捕捉跨模态信息的关联性,显著提升文本理解生成、图像理解和跨模态推理能力。为避免模态间相互干扰,我们创新性地设计了异构混合专家架构,采用模态隔离路由机制,并引入路由器正交损失与多模态令牌均衡损失,确保双模态特征的高效表征与协同优化。
高效可扩展的架构设计:为提升训练效率,我们提出异构混合并行与分层负载均衡策略,结合节点内专家并行、内存优化流水线调度、FP8混合精度训练及细粒度重计算技术,实现了惊人的预训练吞吐量。推理阶段采用多专家并行协作方法与卷积编码量化算法,达成4比特/2比特无损量化。通过动态角色切换的PD解耦技术,显著提升文心4.5混合专家模型的推理效率。基于飞桨框架的深度优化,文心4.5可在多种硬件平台上实现高性能推理。
模态专项后训练:针对实际应用场景的多样化需求,我们对预训练模型进行模态专项微调。通用大语言模型(LLM)专注于文本理解与生成;多模态大模型(VLM)强化视觉语言理解能力,支持思维链与非思维链双模式。各模型采用监督微调(SFT)、*直接偏好优化(DPO)或改进的强化学习方法统一偏好优化(UPO)*进行后训练。
为确保多模态联合训练的稳定性,我们采用分阶段训练策略:前两阶段仅训练文本相关参数,夯实语言理解与长文本处理基础;最终多模态阶段引入ViT图像特征提取器、特征转换适配器和视觉专家模块,实现图文模态的相互增强。经过万亿级token训练,最终获得文心4.5-VL-424B-A47B-基座模型。
文心4.5-VL-424B-A47B-基座是多模态混合专家模型,总参数量4240亿,单token激活参数量470亿。关键配置如下:
| 参数项 | 数值 |
|---|---|
| 模态支持 | 文本 & 视觉 |
| 训练阶段 | 预训练 |
| 参数量(总/激活) | 424B / 47B |
| 网络层数 | 54 |
| 注意力头数(Q/KV) | 64 / 8 |
| 文本专家数(总/激活) | 64 / 8 |
| 视觉专家数(总/激活) | 64 / 8 |
| 上下文长度 | 131072 |
我们正与社区合作完善对文心4.5系列模型的支持,敬请期待。
文心4.5模型基于Apache License 2.0开源,允许符合许可条款的商业使用。版权所有 © 2025 百度在线网络技术有限公司。
如您使用文心4.5模型或相关技术,请引用我们的技术报告:
@misc{ernie2025technicalreport,
title={ERNIE 4.5 Technical Report},
author={Baidu ERNIE Team},
year={2025},
eprint={},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={}
}