模型描述: 这是 未大小写转换的 DistilBERT 模型 在 多类型自然语言推理(MNLI)数据集上针对零样本分类任务进行微调的版本。
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("typeform/distilbert-base-uncased-mnli")
model = AutoModelForSequenceClassification.from_pretrained("typeform/distilbert-base-uncased-mnli")
该模型可用于文本分类任务。
内容警告:读者应注意本节包含令人不安、冒犯性的内容,且可能传播历史及当前的刻板印象。
已有大量研究探讨了语言模型的偏见和公平性问题(例如,参见Sheng et al. (2021)和Bender et al. (2021))。
此DistilBERT-uncased模型在Multi-Genre Natural Language Inference(MultiNLI)语料库上进行预训练。它是一个众包收集的包含433k句子对的语料库,标注有文本蕴含信息。该语料库涵盖了多种口语和书面语文本类型,并支持独特的跨类型泛化评估。
该模型同样不区分大小写,即“english”和“English”对其而言没有区别。
训练在p3.2xlarge AWS EC2上进行,使用以下超参数:
$ run_glue.py \
--model_name_or_path distilbert-base-uncased \
--task_name mnli \
--do_train \
--do_eval \
--max_seq_length 128 \
--per_device_train_batch_size 16 \
--learning_rate 2e-5 \
--num_train_epochs 5 \
--output_dir /tmp/distilbert-base-uncased_mnli/在下游任务上进行微调后,该模型取得了以下结果:
MNLI 和 MNLI-mm 结果:
| 任务 | MNLI | MNLI-mm |
|---|---|---|
| 82.0 | 82.0 |
可使用 Lacoste et al. (2019) 中提出的 机器学习影响计算器 来估算碳排放。我们根据 相关论文 列出硬件类型。
硬件类型: 1 块 NVIDIA Tesla V100 GPU
使用时长: 未知
云服务提供商: AWS EC2 P3
计算区域: 未知
碳排放:(功耗 × 时间 × 基于电网位置的碳排放量):未知