文心4.5系列模型(特别是基于MoE架构的A47B和A3B版本)的卓越能力源自以下核心技术突破:
多模态异构MoE预训练:通过文本与视觉模态的联合训练,模型能更精准捕捉跨模态信息特征,在文本理解生成、图像理解和跨模态推理任务中表现优异。为避免模态间相互干扰,我们创新性地设计了异构MoE结构,采用模态隔离路由机制,并结合路由器正交损失与多模态令牌均衡损失,确保双模态特征的高效表征与协同优化。
高效扩展基础设施:我们提出创新的异构混合并行与分层负载均衡策略,结合节点内专家并行、内存优化流水线调度、FP8混合精度训练和细粒度重计算技术,显著提升预训练吞吐效率。推理阶段采用多专家并行协作方法与卷积编码量化算法,实现4比特/2比特无损量化。基于飞桨框架的动态角色切换PD分片技术,进一步优化了MoE模型的推理资源利用率,确保跨硬件平台的高性能推理。
模态专项后训练:针对实际应用场景的多样化需求,我们对预训练模型进行模态专项微调。通用语言模型专注于文本理解与生成能力优化,视觉语言模型则强化图文理解能力并支持思维链与非思维链双模式。各模型采用监督微调(SFT)、*直接偏好优化(DPO)或改进型强化学习方法统一偏好优化(UPO)*进行后训练。
在视觉语言模型微调阶段,视觉与语言的深度融合对模型在理解、推理、生成等复杂任务的表现具有决定性影响。为增强模型在多模态任务中的泛化适应能力,我们围绕图像理解、任务专项微调和多模态思维链推理三大核心能力,系统化构建训练数据并优化训练策略。通过RLVR(可验证奖励强化学习)技术进一步优化对齐效果,最终获得ERNIE-4.5-VL-424B-A47B模型。
ERNIE-4.5-VL-424B-A47B是基于ERNIE-4.5-VL-424B-A47B-Base的多模态MoE对话模型,总参数量424B,单token激活参数量47B。具体配置如下:
| 关键参数 | 值 |
|---|---|
| 模态 | 文本 & 视觉 |
| 训练阶段 | 后训练 |
| 参数量(总/激活) | 424B / 47B |
| 层数 | 54 |
| 注意力头数(Q/KV) | 64 / 8 |
| 文本专家(总/激活) | 64 / 8 |
| 视觉专家(总/激活) | 64 / 8 |
| 上下文长度 | 131072 |
使用FastDeploy快速部署服务如下,更详细用法请参考FastDeploy GitHub仓库。
注意:需要80GB显存GPU x 8。--quantization参数支持指定wint4或wint8分别进行4比特/8比特量化部署。
python -m fastdeploy.entrypoints.openai.api_server \
--model baidu/ERNIE-4.5-VL-424B-A47B-Paddle \
--port 8180 \
--metrics-port 8181 \
--engine-worker-queue-port 8182 \
--tensor-parallel-size 8 \
--quantization wint4 \
--max-model-len 32768 \
--enable-mm \
--reasoning-parser ernie-45-vl \
--max-num-seqs 32ERNIE-4.5-VL 模型支持通过请求参数开启或关闭思考模式。
curl -X POST "http://0.0.0.0:8180/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
"messages": [
{"role": "user", "content": [
{"type": "image_url", "image_url": {"url": "https://paddlenlp.bj.bcebos.com/datasets/paddlemix/demo_images/example2.jpg"}},
{"type": "text", "text": "Descript this image"}
]}
],
"metadata": {"enable_thinking": true}
}'curl -X POST "http://0.0.0.0:8180/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
"messages": [
{"role": "user", "content": [
{"type": "image_url", "image_url": {"url": "https://paddlenlp.bj.bcebos.com/datasets/paddlemix/demo_images/example2.jpg"}},
{"type": "text", "text": "Descript this image"}
]}
],
"metadata": {"enable_thinking": false}
}'我们正与社区紧密合作,全力实现对 ERNIE4.5 模型的完整支持,敬请期待。
ERNIE 4.5 模型基于 Apache License 2.0 提供。该许可证允许商业用途,但需遵守其条款与条件。版权所有 (c) 2025 百度公司,保留所有权利。
如果您发现 ERNIE 4.5 对您的研究有所帮助,或希望在项目中使用该模型,请引用我们的技术报告:
@misc{ernie2025technicalreport,
title={ERNIE 4.5 Technical Report},
author={Baidu ERNIE Team},
year={2025},
eprint={},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={}
}