HuggingFace镜像/bert-base-german-uncased
模型介绍文件和版本分析
下载使用量0

在本仓库中,巴伐利亚州立图书馆的 MDZ 数字图书馆团队(dbmdz)开源了另一个德语 BERT 模型 🎉

德语 BERT 统计数据 除了 deepset 最近发布的德语 BERT 模型外,我们还提供了另一个德语模型。

该模型的源数据包括最新的维基百科转储、欧盟书店语料库、Open Subtitles、CommonCrawl、ParaCrawl 和 News Crawl。这形成了一个大小为 16GB、包含 2,350,234,427 个标记的数据集。

对于句子拆分,我们使用 spacy。我们的预处理步骤(用于词汇生成的 sentence piece 模型)遵循了训练 SciBERT 时所使用的步骤。该模型以 512 个子词的初始序列长度进行训练,共训练了 150 万步。

此版本包括大小写敏感(cased)和大小写不敏感(uncased)两种模型。