HuggingFace镜像/Clinical-BigBird
模型介绍文件和版本分析
下载使用量0

Clinical-BigBird 是 BigBird 的临床知识增强版本,它使用 MIMIC-III 临床笔记进行了进一步的预训练。该模型允许输入最多 4,096 个 tokens。在 10 个基线数据集上,Clinical-BigBird 的性能始终优于 ClinicalBERT。这些下游实验广泛涵盖了命名实体识别(NER)、问答(QA)、自然语言推理(NLI)和文本分类任务。有关更多详细信息,请参阅 我们的论文。

我们还在 Clinical-Longformer 提供了一个姊妹模型。

预训练

我们使用 BigBird 基础版本的预训练权重初始化了 Clinical-BigBird。预训练过程在 6 块 32GB Tesla V100 GPU 上并行进行。启用了 FP16 精度以加速训练。我们对 Clinical-BigBird 进行了 300,000 步的预训练,批大小为 6×2。学习率为 3e-5。整个预训练过程耗时超过 2 周。

使用方法

直接从 Transformers 加载模型:

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("yikuan8/Clinical-BigBird")
model = AutoModelForMaskedLM.from_pretrained("yikuan8/Clinical-BigBird")

引用

如果您发现我们的模型有所帮助,欢迎引用本项目:)

@article{li2022clinical,
  title={Clinical-Longformer and Clinical-BigBird: Transformers for long clinical sequences},
  author={Li, Yikuan and Wehbe, Ramsey M and Ahmad, Faraz S and Wang, Hanyin and Luo, Yuan},
  journal={arXiv preprint arXiv:2201.11838},
  year={2022}
}

问题

请发送邮件至 yikuanli2018@u.northwestern.edu