飞桨PaddlePaddle/ERNIE-4.5-VL-424B-A47B-Base-PT
模型介绍文件和版本Pull Requests讨论分析
下载使用量0
对话 抱抱脸 代码库 技术博客
许可协议

文心大模型4.5-VL-424B-A47B-基座版

文心4.5技术亮点

文心4.5系列模型(特别是基于混合专家架构的A47B和A3B版本)的卓越能力源于以下关键技术突破:

  1. 多模态异构混合专家预训练:通过文本与视觉模态的联合训练,模型能更精准捕捉跨模态信息关联,显著提升文本理解生成、图像理解及跨模态推理能力。为实现模态间协同而非干扰,我们创新设计了异构MoE架构,采用模态隔离路由机制,并引入路由器正交损失与多模态令牌均衡损失。这些设计确保双模态特征的高效表征,形成训练过程中的正向互增强效应。

  2. 高效扩展基础设施:我们提出创新的异构混合并行与分层负载均衡策略,结合节点内专家并行、内存优化流水线调度、FP8混合精度训练及细粒度重计算技术,实现惊人的预训练吞吐量。推理阶段采用多专家并行协同方法与卷积编码量化算法,达成4比特/2比特无损量化。基于飞桨框架的动态角色切换PD解耦技术,进一步优化文心4.5 MoE模型的推理资源利用率,确保全硬件平台的高性能推理。

  3. 模态专项后训练:为满足实际应用场景的多样化需求,我们对预训练模型进行模态专项微调。通用大语言模型(LLM)专注于文本理解与生成,视觉语言模型(VLM)强化图文理解能力并支持思维链与非思维链双模式。各模型采用监督微调(SFT)、*直接偏好优化(DPO)或改进的强化学习方法统一偏好优化(UPO)*进行后训练。

为确保多模态联合训练的稳定性,我们采用分阶段训练策略:前两阶段专注文本参数训练,构建强大的语言理解与长文本处理基础;最终阶段通过引入ViT图像特征提取器、特征转换适配器及视觉专家模块,将能力扩展至图像视频领域,实现文本与视觉模态的协同进化。经过万亿级token训练,最终获得文心4.5-VL-424B-A47B-基座版模型。

模型概览

文心4.5-VL-424B-A47B-基座版是多模态混合专家基座模型,总参数量4240亿,单token激活参数量470亿。核心配置如下:

关键参数数值
模态支持文本 & 视觉
训练阶段预训练
参数量(总量/激活量)4240亿/470亿
层数54
注意力头数(Q/KV)64 / 8
文本专家(总量/激活量)64 / 8
视觉专家(总量/激活量)64 / 8
上下文长度131072

快速开始

vLLM推理支持

我们正与社区合作完善对文心4.5系列模型的全面支持,敬请期待。

许可协议

文心4.5模型基于Apache 2.0许可证开源,允许符合许可条款的商业使用。版权所有 © 2025 百度在线网络技术有限公司。

引用声明

如您使用文心4.5模型或相关技术,请引用我们的技术报告:

@misc{ernie2025technicalreport,
      title={ERNIE 4.5 Technical Report},
      author={Baidu ERNIE Team},
      year={2025},
      eprint={},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={}
}