🤗 + 📚 dbmdz 土耳其语 BERT 模型

本仓库中，巴伐利亚州立图书馆的 MDZ 数字图书馆团队（dbmdz）开源了一个土耳其语的 uncased 模型 🎉

🇹🇷 BERTurk

BERTurk 是一个社区驱动的土耳其语 uncased BERT 模型。

预训练和评估中使用的部分数据集由出色的土耳其语自然语言处理社区提供，模型名称“BERTurk”的确定也离不开该社区的贡献。

统计信息

当前版本的模型是在经过筛选和句子分割的土耳其语 OSCAR 语料库、最新的维基百科转储、各种 OPUS 语料库以及由 Kemal Oflazer 提供的特殊语料库上训练的。

最终的训练语料库大小为 35GB，包含 44,049,766,662 个 tokens。

感谢谷歌的 TensorFlow 研究云（TFRC），我们得以在 TPU v3-8 上对 uncased 模型进行 200 万步的训练。

模型权重

目前仅提供与 PyTorch-Transformers 兼容的权重。如果您需要 TensorFlow 检查点，请提出 issue！

模型	下载链接
`dbmdz/bert-base-turkish-uncased`	`config.json` • `pytorch_model.bin` • `vocab.txt`

使用方法

当 Transformers 版本 >= 2.3 时，我们的 BERTurk uncased 模型可以通过以下方式加载：

from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-base-turkish-uncased")
model = AutoModel.from_pretrained("dbmdz/bert-base-turkish-uncased")

结果

有关词性标注（PoS tagging）或命名实体识别（NER）任务的结果，请参考此仓库。

Huggingface 模型中心

所有模型均在 Huggingface 模型中心提供。

联系方式（问题、反馈、贡献等）

如对我们的 BERT 模型有任何疑问，欢迎在此处提交 issue 🤗

致谢

感谢 Kemal Oflazer 为我们提供了额外的大型土耳其语语料库。也非常感谢 Reyyan Yeniterzi 提供土耳其语命名实体识别数据集用于评估。

本研究得到了 Google TensorFlow 研究云（TFRC）提供的 Cloud TPU 支持。感谢提供对 TFRC 的访问 ❤️

感谢 Hugging Face 团队的慷慨支持，使得我们能够从其 S3 存储中下载大小写两种版本的模型 🤗

统计信息

最终的训练语料库大小为 35GB，包含 44,049,766,662 个 tokens。

感谢谷歌的 TensorFlow 研究云（TFRC），我们得以在 TPU v3-8 上对 uncased 模型进行 200 万步的训练。

模型

下载链接

dbmdz/bert-base-turkish-uncased

config.json • pytorch_model.bin • vocab.txt

致谢

感谢 Kemal Oflazer 为我们提供了额外的大型土耳其语语料库。也非常感谢 Reyyan Yeniterzi 提供土耳其语命名实体识别数据集用于评估。

本研究得到了 Google TensorFlow 研究云（TFRC）提供的 Cloud TPU 支持。感谢提供对 TFRC 的访问 ❤️

感谢 Hugging Face 团队的慷慨支持，使得我们能够从其 S3 存储中下载大小写两种版本的模型 🤗