🤗 + 📚 dbmdz BERT 模型

本仓库中，巴伐利亚州立图书馆的 MDZ 数字图书馆团队（dbmdz）开源了法语 Europeana BERT 模型 🎉

法语 Europeana BERT

我们使用 Europeana 语料库的 language 元数据属性提取了所有法语文本。

生成的语料库大小为 63GB，包含 11,052,528,456 个标记。

根据元数据信息，训练语料库主要包含 18 至 20 世纪的文本。

有关数据和预训练步骤的详细信息，请参见此仓库。

模型权重

提供适用于 PyTorch 和 TensorFlow 的 BERT 模型权重。

法语 Europeana BERT：dbmdz/bert-base-french-europeana-cased

结果

有关历史命名实体识别（Historic NER）的结果，请参考此仓库。

使用方法

当 Transformers 版本 >= 2.3 时，可按如下方式加载我们的法语 Europeana BERT 模型：

from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-base-french-europeana-cased")
model = AutoModel.from_pretrained("dbmdz/bert-base-french-europeana-cased")

联系我们（问题反馈、意见建议、贡献等）

如对我们的 BERT 模型有任何疑问，请在此处提交 issue 🤗

致谢

本研究得到了 Google TensorFlow 研究云（TFRC）提供的 Cloud TPU 支持。感谢提供 TFRC 的使用权限 ❤️