HuggingFace镜像/bert-base-french-europeana-cased
模型介绍文件和版本分析
下载使用量0

🤗 + 📚 dbmdz BERT 模型

本仓库中,巴伐利亚州立图书馆的 MDZ 数字图书馆团队(dbmdz)开源了法语 Europeana BERT 模型 🎉

法语 Europeana BERT

我们使用 Europeana 语料库的 language 元数据属性提取了所有法语文本。

生成的语料库大小为 63GB,包含 11,052,528,456 个标记。

根据元数据信息,训练语料库主要包含 18 至 20 世纪的文本。

有关数据和预训练步骤的详细信息,请参见此仓库。

模型权重

提供适用于 PyTorch 和 TensorFlow 的 BERT 模型权重。

  • 法语 Europeana BERT:dbmdz/bert-base-french-europeana-cased

结果

有关历史命名实体识别(Historic NER)的结果,请参考此仓库。

使用方法

当 Transformers 版本 >= 2.3 时,可按如下方式加载我们的法语 Europeana BERT 模型:

from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-base-french-europeana-cased")
model = AutoModel.from_pretrained("dbmdz/bert-base-french-europeana-cased")

联系我们(问题反馈、意见建议、贡献等)

如对我们的 BERT 模型有任何疑问,请在此处提交 issue 🤗

致谢

本研究得到了 Google TensorFlow 研究云(TFRC)提供的 Cloud TPU 支持。 感谢提供 TFRC 的使用权限 ❤️