HuggingFace镜像/distilbert-base-uncased-mnli
模型介绍文件和版本分析
下载使用量0

DistilBERT 基础模型(未大小写转换)

目录

  • 模型详情
  • 如何开始使用模型
  • 用途
  • 风险、局限性与偏见
  • 训练
  • 评估
  • 环境影响

模型详情

模型描述: 这是 未大小写转换的 DistilBERT 模型 在 多类型自然语言推理(MNLI)数据集上针对零样本分类任务进行微调的版本。

  • 开发机构: Typeform 团队。
  • 模型类型: 零样本分类
  • 语言: 英语
  • 许可证: 未知
  • 父模型: 有关 Distilled-BERT 基础模型的更多信息,请参见 distilbert base uncased model。

如何开始使用模型

from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("typeform/distilbert-base-uncased-mnli")

model = AutoModelForSequenceClassification.from_pretrained("typeform/distilbert-base-uncased-mnli")

用途

该模型可用于文本分类任务。

风险、局限性与偏见

内容警告:读者应注意本节包含令人不安、冒犯性的内容,且可能传播历史及当前的刻板印象。

已有大量研究探讨了语言模型的偏见和公平性问题(例如,参见Sheng et al. (2021)和Bender et al. (2021))。

训练

训练数据

此DistilBERT-uncased模型在Multi-Genre Natural Language Inference(MultiNLI)语料库上进行预训练。它是一个众包收集的包含433k句子对的语料库,标注有文本蕴含信息。该语料库涵盖了多种口语和书面语文本类型,并支持独特的跨类型泛化评估。

该模型同样不区分大小写,即“english”和“English”对其而言没有区别。

训练过程

训练在p3.2xlarge AWS EC2上进行,使用以下超参数:

$ run_glue.py \
    --model_name_or_path distilbert-base-uncased \
    --task_name mnli \
    --do_train \
    --do_eval \
    --max_seq_length 128 \
    --per_device_train_batch_size 16 \
    --learning_rate 2e-5 \
    --num_train_epochs 5 \
    --output_dir /tmp/distilbert-base-uncased_mnli/

评估

评估结果

在下游任务上进行微调后,该模型取得了以下结果:

  • Epoch = 5.0
  • Evaluation Accuracy = 0.8206875508543532
  • Evaluation Loss = 0.8706700205802917
  • Evaluation Runtime = 17.8278
  • Evaluation Samples per second = 551.498

MNLI 和 MNLI-mm 结果:

任务MNLIMNLI-mm
82.082.0

环境影响

可使用 Lacoste et al. (2019) 中提出的 机器学习影响计算器 来估算碳排放。我们根据 相关论文 列出硬件类型。

硬件类型: 1 块 NVIDIA Tesla V100 GPU

使用时长: 未知

云服务提供商: AWS EC2 P3

计算区域: 未知

碳排放:(功耗 × 时间 × 基于电网位置的碳排放量):未知