Clinical-BigBird 是 BigBird 的临床知识增强版本,它使用 MIMIC-III 临床笔记进行了进一步的预训练。该模型允许输入最多 4,096 个 tokens。在 10 个基线数据集上,Clinical-BigBird 的性能始终优于 ClinicalBERT。这些下游实验广泛涵盖了命名实体识别(NER)、问答(QA)、自然语言推理(NLI)和文本分类任务。有关更多详细信息,请参阅 我们的论文。
我们还在 Clinical-Longformer 提供了一个姊妹模型。
我们使用 BigBird 基础版本的预训练权重初始化了 Clinical-BigBird。预训练过程在 6 块 32GB Tesla V100 GPU 上并行进行。启用了 FP16 精度以加速训练。我们对 Clinical-BigBird 进行了 300,000 步的预训练,批大小为 6×2。学习率为 3e-5。整个预训练过程耗时超过 2 周。
直接从 Transformers 加载模型:
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("yikuan8/Clinical-BigBird")
model = AutoModelForMaskedLM.from_pretrained("yikuan8/Clinical-BigBird")如果您发现我们的模型有所帮助,欢迎引用本项目:)
@article{li2022clinical,
title={Clinical-Longformer and Clinical-BigBird: Transformers for long clinical sequences},
author={Li, Yikuan and Wehbe, Ramsey M and Ahmad, Faraz S and Wang, Hanyin and Luo, Yuan},
journal={arXiv preprint arXiv:2201.11838},
year={2022}
}