t5-v1_1-large:Google T5 V1.1-large采用GEGLU激活函数，无预训练dropout，优化模型结构。需微调后用于文本分类、问答、摘要等下游任务，性能更优。【此简介由AI生成】

版本 1.1

相比原始 T5 模型，T5 版本 1.1 包含以下改进：

前馈隐藏层采用 GEGLU 激活函数替代 ReLU（参见论文）
预训练阶段禁用 Dropout（提升质量表现），微调阶段需重新启用 Dropout
仅使用 C4 数据集进行预训练，未混合下游任务数据
嵌入层与分类器层取消参数共享
使用 "xl" 和 "xxl" 取代 "3B" 和 "11B" 的命名方式，模型结构略有调整：增大 d_model 维度，减小 num_heads 和 d_ff 维度

注意：T5 版本 1.1 仅通过 C4 数据集进行无监督预训练，未包含任何监督训练数据。因此使用前必须针对下游任务进行微调。预训练数据集：C4

其他社区检查点：查看此处

论文：Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

作者：Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu

摘要

迁移学习通过先在数据丰富的任务上预训练模型，再在下游任务上微调，已成为自然语言处理（NLP）领域的重要技术。该技术的有效性催生了多样化的方法、方法论和实践体系。本文通过将各类语言问题统一转换为文本到文本格式，系统探索了 NLP 迁移学习的技术全景。我们通过控制变量实验，在数十个语言理解任务上对比了不同预训练目标、架构、无标注数据集和迁移方法的影响。结合实验发现与大规模训练数据（新建的"巨量清洁网络语料库"），我们在摘要生成、问答、文本分类等多项基准测试中取得了突破性成果。为促进 NLP 迁移学习的后续研究，我们公开了数据集、预训练模型和代码。

模型结构图

Google's T5 版本 1.1