这是一个 T5 v1.1 模型,在日语语料库上进行了预训练。
T5 是一种基于 Transformer 的编码器 - 解码器模型,现已是 v1.1 版本,与原始 T5 相比有以下改进。
本模型基于 T5 v1.1,在日语语料库上进行了预训练。日语语料库使用了日语维基百科和 mC4/ja。
我们使用 T5X(https://github.com/google-research/t5x)训练此模型,并已将其转换为 Huggingface transformer 格式。
使用的训练数据如下:
进行了以下过滤操作:
dropout 率:0.0
批大小:128
bf16
输入长度:512
输出长度:114
其他方面遵循 T5X 的默认值(https://github.com/google-research/t5x/blob/main/t5x/examples/t5/t5_1_1/xl.gin),包括:
我们训练了 524288 步。
模型架构。
Google Cloud TPU v3-128。
https://note.com/retrieva/n/n7b4186dc5ada(日语)
Jiro Nishitoba