在本仓库中,巴伐利亚州立图书馆的 MDZ 数字图书馆团队(dbmdz)开源了另一个德语 BERT 模型 🎉
德语 BERT 统计数据 除了 deepset 最近发布的德语 BERT 模型外,我们还提供了另一个德语模型。
该模型的源数据包括最新的维基百科转储、欧盟书店语料库、Open Subtitles、CommonCrawl、ParaCrawl 和 News Crawl。这形成了一个大小为 16GB、包含 2,350,234,427 个标记的数据集。
对于句子拆分,我们使用 spacy。我们的预处理步骤(用于词汇生成的 sentence piece 模型)遵循了训练 SciBERT 时所使用的步骤。该模型以 512 个子词的初始序列长度进行训练,共训练了 150 万步。
此版本包括大小写敏感(cased)和大小写不敏感(uncased)两种模型。