HuggingFace镜像/distilbert-base-uncased-mnli

DistilBERT 基础模型（未大小写转换）

模型详情

模型描述： 这是未大小写转换的 DistilBERT 模型在多类型自然语言推理（MNLI）数据集上针对零样本分类任务进行微调的版本。

开发机构： Typeform 团队。
模型类型： 零样本分类
语言： 英语
许可证： 未知
父模型： 有关 Distilled-BERT 基础模型的更多信息，请参见 distilbert base uncased model。

如何开始使用模型

from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("typeform/distilbert-base-uncased-mnli")

model = AutoModelForSequenceClassification.from_pretrained("typeform/distilbert-base-uncased-mnli")

用途

该模型可用于文本分类任务。

风险、局限性与偏见

内容警告：读者应注意本节包含令人不安、冒犯性的内容，且可能传播历史及当前的刻板印象。

已有大量研究探讨了语言模型的偏见和公平性问题（例如，参见Sheng et al. (2021)和Bender et al. (2021)）。

训练

训练数据

此DistilBERT-uncased模型在Multi-Genre Natural Language Inference（MultiNLI）语料库上进行预训练。它是一个众包收集的包含433k句子对的语料库，标注有文本蕴含信息。该语料库涵盖了多种口语和书面语文本类型，并支持独特的跨类型泛化评估。

该模型同样不区分大小写，即“english”和“English”对其而言没有区别。

训练过程

训练在p3.2xlarge AWS EC2上进行，使用以下超参数：

$ run_glue.py \
    --model_name_or_path distilbert-base-uncased \
    --task_name mnli \
    --do_train \
    --do_eval \
    --max_seq_length 128 \
    --per_device_train_batch_size 16 \
    --learning_rate 2e-5 \
    --num_train_epochs 5 \
    --output_dir /tmp/distilbert-base-uncased_mnli/

评估

评估结果

在下游任务上进行微调后，该模型取得了以下结果：

Epoch = 5.0
Evaluation Accuracy = 0.8206875508543532
Evaluation Loss = 0.8706700205802917
Evaluation Runtime = 17.8278
Evaluation Samples per second = 551.498

MNLI 和 MNLI-mm 结果：

任务	MNLI	MNLI-mm
	82.0	82.0

环境影响

可使用 Lacoste et al. (2019) 中提出的机器学习影响计算器来估算碳排放。我们根据相关论文列出硬件类型。

硬件类型： 1 块 NVIDIA Tesla V100 GPU

使用时长： 未知

云服务提供商： AWS EC2 P3

计算区域： 未知

碳排放：（功耗 × 时间 × 基于电网位置的碳排放量）：未知

DistilBERT 基础模型（未大小写转换）

模型详情

模型描述： 这是未大小写转换的 DistilBERT 模型在多类型自然语言推理（MNLI）数据集上针对零样本分类任务进行微调的版本。

开发机构： Typeform 团队。
模型类型： 零样本分类
语言： 英语
许可证： 未知
父模型： 有关 Distilled-BERT 基础模型的更多信息，请参见 distilbert base uncased model。

如何开始使用模型

from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("typeform/distilbert-base-uncased-mnli")

model = AutoModelForSequenceClassification.from_pretrained("typeform/distilbert-base-uncased-mnli")

用途

该模型可用于文本分类任务。

风险、局限性与偏见

内容警告：读者应注意本节包含令人不安、冒犯性的内容，且可能传播历史及当前的刻板印象。

已有大量研究探讨了语言模型的偏见和公平性问题（例如，参见Sheng et al. (2021)和Bender et al. (2021)）。

训练

训练数据

该模型同样不区分大小写，即“english”和“English”对其而言没有区别。

训练过程

训练在p3.2xlarge AWS EC2上进行，使用以下超参数：

$ run_glue.py \
    --model_name_or_path distilbert-base-uncased \
    --task_name mnli \
    --do_train \
    --do_eval \
    --max_seq_length 128 \
    --per_device_train_batch_size 16 \
    --learning_rate 2e-5 \
    --num_train_epochs 5 \
    --output_dir /tmp/distilbert-base-uncased_mnli/

评估

评估结果

在下游任务上进行微调后，该模型取得了以下结果：

Epoch = 5.0
Evaluation Accuracy = 0.8206875508543532
Evaluation Loss = 0.8706700205802917
Evaluation Runtime = 17.8278
Evaluation Samples per second = 551.498

MNLI 和 MNLI-mm 结果：

任务	MNLI	MNLI-mm
	82.0	82.0

环境影响

可使用 Lacoste et al. (2019) 中提出的机器学习影响计算器来估算碳排放。我们根据相关论文列出硬件类型。

硬件类型： 1 块 NVIDIA Tesla V100 GPU

使用时长： 未知

云服务提供商： AWS EC2 P3

计算区域： 未知

碳排放：（功耗 × 时间 × 基于电网位置的碳排放量）：未知

DistilBERT 基础模型（未大小写转换）

目录

模型详情

如何开始使用模型

用途

风险、局限性与偏见

训练

训练数据

训练过程

评估

评估结果

环境影响

DistilBERT 基础模型（未大小写转换）

目录

模型详情

如何开始使用模型

用途

风险、局限性与偏见

训练

训练数据

训练过程

评估

评估结果

环境影响