模型 ID 的模型卡片

这是一个 T5 v1.1 模型，在日语语料库上进行了预训练。

模型详情

T5 是一种基于 Transformer 的编码器 - 解码器模型，现已是 v1.1 版本，与原始 T5 相比有以下改进。

前馈隐藏层采用 GEGLU 激活函数，而非 ReLU，详情参见 https://arxiv.org/abs/2002.05202。
预训练阶段关闭了 Dropout（有助于提升质量）。微调时应重新启用 Dropout。
嵌入层和分类器层之间不共享参数。
“xl” 和 “xxl” 取代了 “3B” 和 “11B”。模型结构略有不同——d_model 更大，num_heads 和 d_ff 更小。

本模型基于 T5 v1.1，在日语语料库上进行了预训练。日语语料库使用了日语维基百科和 mC4/ja。

模型描述

开发机构： Retrieva, Inc.
模型类型： T5 v1.1
语言（自然语言处理）： 日语
许可证： CC - BY - SA 4.0。尽管允许商业使用，但恳请您事先与我们联系。

训练详情

我们使用 T5X（https://github.com/google-research/t5x）训练此模型，并已将其转换为 Huggingface transformer 格式。

训练数据

使用的训练数据如下：

多语言 C4 的日语部分（mC4/ja）。
日语维基百科（20220920）。

预处理

进行了以下过滤操作：

移除未使用单个平假名字符的文档。这会移除纯英文文档和中文文档。
使用 URL 的顶级域名进行白名单式过滤，以移除联盟网站。

训练超参数

dropout 率：0.0
批大小：128
bf16
输入长度：512
输出长度：114
其他方面遵循 T5X 的默认值（https://github.com/google-research/t5x/blob/main/t5x/examples/t5/t5_1_1/xl.gin），包括：
- 优化器：Adafactor
- 基础学习率：1.0
- 预热步数：10000

速度、大小、时间

我们训练了 524288 步。

技术规格

模型架构与目标

模型架构。

T5 v1.1（https://github.com/google-research/text-to-text-transfer-transformer/blob/main/released_checkpoints.md#t511）
规模：XL（约30亿参数）

计算基础设施

Google Cloud TPU v3-128。

软件

T5X（https://github.com/google-research/t5x）。

模型卡片作者

Jiro Nishitoba

模型卡片联系方式

pr@retrieva.jp

模型详情

T5 是一种基于 Transformer 的编码器 - 解码器模型，现已是 v1.1 版本，与原始 T5 相比有以下改进。

前馈隐藏层采用 GEGLU 激活函数，而非 ReLU，详情参见 https://arxiv.org/abs/2002.05202。

预训练阶段关闭了 Dropout（有助于提升质量）。微调时应重新启用 Dropout。

嵌入层和分类器层之间不共享参数。

“xl” 和 “xxl” 取代了 “3B” 和 “11B”。模型结构略有不同——d_model 更大，num_heads 和 d_ff 更小。

本模型基于 T5 v1.1，在日语语料库上进行了预训练。日语语料库使用了日语维基百科和 mC4/ja。

模型描述

开发机构： Retrieva, Inc.

模型类型： T5 v1.1

语言（自然语言处理）： 日语

许可证： CC - BY - SA 4.0。尽管允许商业使用，但恳请您事先与我们联系。

训练数据

使用的训练数据如下：

多语言 C4 的日语部分（mC4/ja）。

日语维基百科（20220920）。

预处理

进行了以下过滤操作：

移除未使用单个平假名字符的文档。这会移除纯英文文档和中文文档。

使用 URL 的顶级域名进行白名单式过滤，以移除联盟网站。

训练超参数

dropout 率：0.0

批大小：128

bf16

输入长度：512

输出长度：114

其他方面遵循 T5X 的默认值（https://github.com/google-research/t5x/blob/main/t5x/examples/t5/t5_1_1/xl.gin），包括：

优化器：Adafactor
基础学习率：1.0
预热步数：10000

速度、大小、时间

我们训练了 524288 步。

模型 ID 的模型卡片

模型详情

模型描述

训练详情

训练数据

预处理

训练超参数

速度、大小、时间

技术规格

模型架构与目标

计算基础设施

软件

更多信息

模型卡片作者

模型卡片联系方式

模型 ID 的模型卡片

模型详情

模型描述

训练详情

训练数据

预处理

训练超参数

速度、大小、时间

技术规格

模型架构与目标

计算基础设施

软件

更多信息

模型卡片作者

模型卡片联系方式