HuggingFace镜像/t5-v1_1-large
模型介绍文件和版本分析

Google's T5 版本 1.1

版本 1.1

相比原始 T5 模型,T5 版本 1.1 包含以下改进:

  • 前馈隐藏层采用 GEGLU 激活函数替代 ReLU(参见论文)
  • 预训练阶段禁用 Dropout(提升质量表现),微调阶段需重新启用 Dropout
  • 仅使用 C4 数据集进行预训练,未混合下游任务数据
  • 嵌入层与分类器层取消参数共享
  • 使用 "xl" 和 "xxl" 取代 "3B" 和 "11B" 的命名方式,模型结构略有调整:增大 d_model 维度,减小 num_heads 和 d_ff 维度

注意:T5 版本 1.1 仅通过 C4 数据集进行无监督预训练,未包含任何监督训练数据。因此使用前必须针对下游任务进行微调。 预训练数据集:C4

其他社区检查点:查看此处

论文:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

作者:Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu

摘要

迁移学习通过先在数据丰富的任务上预训练模型,再在下游任务上微调,已成为自然语言处理(NLP)领域的重要技术。该技术的有效性催生了多样化的方法、方法论和实践体系。本文通过将各类语言问题统一转换为文本到文本格式,系统探索了 NLP 迁移学习的技术全景。我们通过控制变量实验,在数十个语言理解任务上对比了不同预训练目标、架构、无标注数据集和迁移方法的影响。结合实验发现与大规模训练数据(新建的"巨量清洁网络语料库"),我们在摘要生成、问答、文本分类等多项基准测试中取得了突破性成果。为促进 NLP 迁移学习的后续研究,我们公开了数据集、预训练模型和代码。

模型结构图

下载使用量0