🤗 + 📚 dbmdz 德语 BERT 模型

本仓库中，巴伐利亚州立图书馆的 MDZ 数字图书馆团队（dbmdz）开源了另一款德语 BERT 模型 🎉

德语 BERT

统计信息

除了 deepset 最近发布的 German BERT 模型外，我们还提供了另一款德语模型。

该模型的源数据包括最新的维基百科 dump、欧盟书店语料库、Open Subtitles、CommonCrawl、ParaCrawl 和 News Crawl。这形成了一个大小为 16GB、包含 2,350,234,427 个标记的数据集。

对于句子分割，我们使用 spacy。我们的预处理步骤（用于词汇生成的 sentence piece 模型）遵循了 SciBERT 的训练方法。该模型以 512 个子词的初始序列长度进行训练，共训练了 150 万步。

此版本包括大小写敏感（cased）和大小写不敏感（uncased）两种模型。

模型权重

目前仅提供与 PyTorch-Transformers 兼容的权重。如果您需要 TensorFlow 检查点，请提交 issue！

模型	下载链接
`bert-base-german-dbmdz-cased`	`config.json` • `pytorch_model.bin` • `vocab.txt`
`bert-base-german-dbmdz-uncased`	`config.json` • `pytorch_model.bin` • `vocab.txt`

使用方法

当 Transformers 版本 >= 2.3 时，我们的 German BERT 模型可以按如下方式加载：

from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-base-german-cased")
model = AutoModel.from_pretrained("dbmdz/bert-base-german-cased")

结果

有关命名实体识别（NER）或词性标注（PoS tagging）等下游任务的结果，请参考此仓库。

Huggingface 模型中心

所有模型均在 Huggingface 模型中心提供。

联系方式（问题、反馈、贡献等）

如对我们的 BERT 模型有任何疑问，欢迎在此处提交 issue 🤗

致谢

本研究得到了 Google TensorFlow 研究云（TFRC）提供的 Cloud TPU 支持。感谢提供 TFRC 的使用权限 ❤️

感谢 Hugging Face 团队的慷慨支持，使得我们能够从其 S3 存储中下载大小写两种版本的模型 🤗

统计信息

除了 deepset 最近发布的 German BERT 模型外，我们还提供了另一款德语模型。

此版本包括大小写敏感（cased）和大小写不敏感（uncased）两种模型。

模型

下载链接

bert-base-german-dbmdz-cased

config.json • pytorch_model.bin • vocab.txt

bert-base-german-dbmdz-uncased

config.json • pytorch_model.bin • vocab.txt