本仓库中,巴伐利亚州立图书馆的 MDZ 数字图书馆团队(dbmdz)开源了法语 Europeana BERT 模型 🎉
我们使用 Europeana 语料库的 language 元数据属性提取了所有法语文本。
生成的语料库大小为 63GB,包含 11,052,528,456 个标记。
根据元数据信息,训练语料库主要包含 18 至 20 世纪的文本。
有关数据和预训练步骤的详细信息,请参见此仓库。
提供适用于 PyTorch 和 TensorFlow 的 BERT 模型权重。
dbmdz/bert-base-french-europeana-cased有关历史命名实体识别(Historic NER)的结果,请参考此仓库。
当 Transformers 版本 >= 2.3 时,可按如下方式加载我们的法语 Europeana BERT 模型:
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-base-french-europeana-cased")
model = AutoModel.from_pretrained("dbmdz/bert-base-french-europeana-cased")如对我们的 BERT 模型有任何疑问,请在此处提交 issue 🤗
本研究得到了 Google TensorFlow 研究云(TFRC)提供的 Cloud TPU 支持。 感谢提供 TFRC 的使用权限 ❤️