HuggingFace镜像/t5-xl
模型介绍文件和版本分析
下载使用量0

模型 ID 的模型卡片

这是一个 T5 v1.1 模型,在日语语料库上进行了预训练。

模型详情

T5 是一种基于 Transformer 的编码器 - 解码器模型,现已是 v1.1 版本,与原始 T5 相比有以下改进。

  • 前馈隐藏层采用 GEGLU 激活函数,而非 ReLU,详情参见 https://arxiv.org/abs/2002.05202。
  • 预训练阶段关闭了 Dropout(有助于提升质量)。微调时应重新启用 Dropout。
  • 嵌入层和分类器层之间不共享参数。
  • “xl” 和 “xxl” 取代了 “3B” 和 “11B”。模型结构略有不同——d_model 更大,num_heads 和 d_ff 更小。

本模型基于 T5 v1.1,在日语语料库上进行了预训练。日语语料库使用了日语维基百科和 mC4/ja。

模型描述

  • 开发机构: Retrieva, Inc.
  • 模型类型: T5 v1.1
  • 语言(自然语言处理): 日语
  • 许可证: CC - BY - SA 4.0。尽管允许商业使用,但恳请您事先与我们联系。

训练详情

我们使用 T5X(https://github.com/google-research/t5x)训练此模型,并已将其转换为 Huggingface transformer 格式。

训练数据

使用的训练数据如下:

  • 多语言 C4 的日语部分(mC4/ja)。
  • 日语维基百科(20220920)。

预处理

进行了以下过滤操作:

  • 移除未使用单个平假名字符的文档。这会移除纯英文文档和中文文档。
  • 使用 URL 的顶级域名进行白名单式过滤,以移除联盟网站。

训练超参数

  • dropout 率:0.0

  • 批大小:128

  • bf16

  • 输入长度:512

  • 输出长度:114

  • 其他方面遵循 T5X 的默认值(https://github.com/google-research/t5x/blob/main/t5x/examples/t5/t5_1_1/xl.gin),包括:

    • 优化器:Adafactor
    • 基础学习率:1.0
    • 预热步数:10000

速度、大小、时间

我们训练了 524288 步。

技术规格

模型架构与目标

模型架构。

  • T5 v1.1(https://github.com/google-research/text-to-text-transfer-transformer/blob/main/released_checkpoints.md#t511)
  • 规模:XL(约30亿参数)

计算基础设施

Google Cloud TPU v3-128。

软件

  • T5X(https://github.com/google-research/t5x)。

更多信息

https://note.com/retrieva/n/n7b4186dc5ada(日语)

模型卡片作者

Jiro Nishitoba

模型卡片联系方式

pr@retrieva.jp