bert-base-german-uncased:可用于德语文本分类等自然语言处理任务。该项目开源了由巴伐利亚州立图书馆团队训练的德语 BERT 模型，基于多源语料（含维基百科、欧盟书店语料等）训练，包含大小写两种版本，适配 NPU 硬件。【此简介由AI生成】

在本仓库中，巴伐利亚州立图书馆的 MDZ 数字图书馆团队（dbmdz）开源了另一个德语 BERT 模型 🎉

德语 BERT 统计数据除了 deepset 最近发布的德语 BERT 模型外，我们还提供了另一个德语模型。

该模型的源数据包括最新的维基百科转储、欧盟书店语料库、Open Subtitles、CommonCrawl、ParaCrawl 和 News Crawl。这形成了一个大小为 16GB、包含 2,350,234,427 个标记的数据集。

对于句子拆分，我们使用 spacy。我们的预处理步骤（用于词汇生成的 sentence piece 模型）遵循了训练 SciBERT 时所使用的步骤。该模型以 512 个子词的初始序列长度进行训练，共训练了 150 万步。

此版本包括大小写敏感（cased）和大小写不敏感（uncased）两种模型。

在本仓库中，巴伐利亚州立图书馆的 MDZ 数字图书馆团队（dbmdz）开源了另一个德语 BERT 模型 🎉

德语 BERT 统计数据除了 deepset 最近发布的德语 BERT 模型外，我们还提供了另一个德语模型。

此版本包括大小写敏感（cased）和大小写不敏感（uncased）两种模型。