T5 Base 模型卡片

修改说明

在原始 README 中增加了 CANN 版本依赖说明，并修改了示例代码。

模型详情

模型描述

Text-To-Text Transfer Transformer（T5）的开发者在文章中写道：

借助 T5，我们建议将所有 NLP 任务重构为统一的文本到文本格式，其中输入和输出始终是文本字符串，这与 BERT 风格的模型形成对比，后者只能输出类别标签或输入的一个片段。我们的文本到文本框架使我们能够在任何 NLP 任务上使用相同的模型、损失函数和超参数。

T5-Base 是拥有 2.2 亿参数的检查点。

开发人员： Colin Raffel、Noam Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li、Peter J. Liu。参见相关论文和GitHub 仓库
模型类型： 语言模型
语言（NLP）： 英语、法语、罗马尼亚语、德语
许可证： Apache 2.0
更多信息资源：

用途

直接使用和下游使用

开发者在博客文章中写道，该模型：

我们的文本到文本框架允许我们在任何 NLP 任务上使用相同的模型、损失函数和超参数，包括机器翻译、文档摘要、问答以及分类任务（例如情感分析）。我们甚至可以将 T5 应用于回归任务，通过训练它预测数字的字符串表示而非数字本身。

有关更多详细信息，请参见博客文章和研究论文。

超出范围的使用

需要更多信息。

偏差、风险和局限性

需要更多信息。

建议

需要更多信息。

训练详情

训练数据

该模型在无监督任务（1.）和有监督任务（2.）的多任务混合数据上进行预训练。用于（1.）和（2.）的数据集如下：

用于无监督去噪目标的数据集：

C4
Wiki-DPR

用于有监督文本到文本语言建模目标的数据集

句子可接受性判断
- CoLA Warstadt et al., 2018
情感分析
- SST-2 Socher et al., 2013
释义/句子相似度
- MRPC Dolan and Brockett, 2005
- STS-B Cer et al., 2017
- QQP Iyer et al., 2017
自然语言推理
- MNLI Williams et al., 2017
- QNLI Rajpurkar et al., 2016
- RTE Dagan et al., 2005
- CB De Marneffe et al., 2019
句子补全
- COPA Roemmele et al., 2011
词义消歧
- WIC Pilehvar and Camacho-Collados, 2018
问答
- MultiRC Khashabi et al., 2018
- ReCoRD Zhang et al., 2018
- BoolQ Clark et al., 2019

训练过程

模型开发者在其摘要中写道：

在本文中，我们通过引入一个将所有语言问题转换为文本到文本格式的统一框架，探索了自然语言处理（NLP）迁移学习技术的前景。我们的系统性研究在数十项语言理解任务上比较了预训练目标、架构、无标签数据集、迁移方法以及其他因素。

所引入的框架，即T5框架，包含了论文中研究的各种方法相结合的训练过程。有关更多详细信息，请参见研究论文。

评估

测试数据、因素与指标

开发者在24项任务上对模型进行了评估，完整详情请参见研究论文。

结果

T5-Base的完整结果，请参见研究论文中的表14。

环境影响

可使用Lacoste等人（2019）提出的机器学习影响计算器来估算碳排放量。

硬件类型： Google Cloud TPU Pods
使用时长： 需要更多信息
云服务提供商： GCP
计算区域： 需要更多信息
碳排放： 需要更多信息

引用

BibTeX格式：

@article{2020t5,
  author  = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
  title   = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
  journal = {Journal of Machine Learning Research},
  year    = {2020},
  volume  = {21},
  number  = {140},
  pages   = {1-67},
  url     = {http://jmlr.org/papers/v21/20-074.html}
}

APA：

Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res., 21(140), 1-67.

模型卡片作者

本模型卡片由Hugging Face团队撰写。

如何开始使用模型

使用以下代码开始使用模型。

点击展开


from openmind import AutoTokenizer
from transformers import T5ForConditionalGeneration

device = "npu:0"

model_name = "PyTorch-NPU/t5_base"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name).to(device)

input_text = "translate English to German: Hugging Face is a technology company based in New York and Paris"
inputs = tokenizer.encode(input_text, return_tensors="pt").to(device)

print()
print("prompt:")
print(input_text)
outputs = model.generate(inputs, max_length=40, num_beams=4, early_stopping=True)
print("result:")
print(tokenizer.decode(outputs[0]))

T5 Base 模型卡片

修改说明

在原始 README 中增加了 CANN 版本依赖说明，并修改了示例代码。

模型详情

模型描述

Text-To-Text Transfer Transformer（T5）的开发者在文章中写道：

借助 T5，我们建议将所有 NLP 任务重构为统一的文本到文本格式，其中输入和输出始终是文本字符串，这与 BERT 风格的模型形成对比，后者只能输出类别标签或输入的一个片段。我们的文本到文本框架使我们能够在任何 NLP 任务上使用相同的模型、损失函数和超参数。

T5-Base 是拥有 2.2 亿参数的检查点。

开发人员： Colin Raffel、Noam Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li、Peter J. Liu。参见相关论文和GitHub 仓库
模型类型： 语言模型
语言（NLP）： 英语、法语、罗马尼亚语、德语
许可证： Apache 2.0
更多信息资源：

用途

直接使用和下游使用

开发者在博客文章中写道，该模型：

我们的文本到文本框架允许我们在任何 NLP 任务上使用相同的模型、损失函数和超参数，包括机器翻译、文档摘要、问答以及分类任务（例如情感分析）。我们甚至可以将 T5 应用于回归任务，通过训练它预测数字的字符串表示而非数字本身。

有关更多详细信息，请参见博客文章和研究论文。

超出范围的使用

需要更多信息。

偏差、风险和局限性

需要更多信息。

建议

需要更多信息。

训练详情

训练数据

该模型在无监督任务（1.）和有监督任务（2.）的多任务混合数据上进行预训练。用于（1.）和（2.）的数据集如下：

用于无监督去噪目标的数据集：

C4
Wiki-DPR

用于有监督文本到文本语言建模目标的数据集

句子可接受性判断
- CoLA Warstadt et al., 2018
情感分析
- SST-2 Socher et al., 2013
释义/句子相似度
- MRPC Dolan and Brockett, 2005
- STS-B Cer et al., 2017
- QQP Iyer et al., 2017
自然语言推理
- MNLI Williams et al., 2017
- QNLI Rajpurkar et al., 2016
- RTE Dagan et al., 2005
- CB De Marneffe et al., 2019
句子补全
- COPA Roemmele et al., 2011
词义消歧
- WIC Pilehvar and Camacho-Collados, 2018
问答
- MultiRC Khashabi et al., 2018
- ReCoRD Zhang et al., 2018
- BoolQ Clark et al., 2019

训练过程

模型开发者在其摘要中写道：

在本文中，我们通过引入一个将所有语言问题转换为文本到文本格式的统一框架，探索了自然语言处理（NLP）迁移学习技术的前景。我们的系统性研究在数十项语言理解任务上比较了预训练目标、架构、无标签数据集、迁移方法以及其他因素。

所引入的框架，即T5框架，包含了论文中研究的各种方法相结合的训练过程。有关更多详细信息，请参见研究论文。

评估

测试数据、因素与指标

开发者在24项任务上对模型进行了评估，完整详情请参见研究论文。

结果

T5-Base的完整结果，请参见研究论文中的表14。

环境影响

可使用Lacoste等人（2019）提出的机器学习影响计算器来估算碳排放量。

硬件类型： Google Cloud TPU Pods
使用时长： 需要更多信息
云服务提供商： GCP
计算区域： 需要更多信息
碳排放： 需要更多信息

引用

BibTeX格式：

@article{2020t5,
  author  = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
  title   = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
  journal = {Journal of Machine Learning Research},
  year    = {2020},
  volume  = {21},
  number  = {140},
  pages   = {1-67},
  url     = {http://jmlr.org/papers/v21/20-074.html}
}

APA：

Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res., 21(140), 1-67.

模型卡片作者

本模型卡片由Hugging Face团队撰写。

如何开始使用模型

使用以下代码开始使用模型。

点击展开


from openmind import AutoTokenizer
from transformers import T5ForConditionalGeneration

device = "npu:0"

model_name = "PyTorch-NPU/t5_base"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name).to(device)

input_text = "translate English to German: Hugging Face is a technology company based in New York and Paris"
inputs = tokenizer.encode(input_text, return_tensors="pt").to(device)

print()
print("prompt:")
print(input_text)
outputs = model.generate(inputs, max_length=40, num_beams=4, early_stopping=True)
print("result:")
print(tokenizer.decode(outputs[0]))

T5 Base 模型卡片

修改说明

目录

模型详情

模型描述

用途

直接使用和下游使用

超出范围的使用

偏差、风险和局限性

建议

训练详情

训练数据

训练过程

评估

测试数据、因素与指标

结果

环境影响

引用

模型卡片作者

如何开始使用模型

T5 Base 模型卡片

修改说明

目录

模型详情

模型描述

用途

直接使用和下游使用

超出范围的使用

偏差、风险和局限性

建议

训练详情

训练数据

训练过程

评估

测试数据、因素与指标

结果

环境影响

引用

模型卡片作者

如何开始使用模型