在本仓库中,巴伐利亚州立图书馆的 MDZ 数字图书馆团队(dbmdz)开源了一个土耳其语的 uncased 模型 🎉
BERTurk 是一个社区驱动的土耳其语 uncased BERT 模型。
预训练和评估中使用的部分数据集由出色的土耳其语 NLP 社区贡献,模型名称“BERTurk”的确定也得益于该社区。
当前版本的模型是在经过筛选和句子分割的土耳其语 OSCAR 语料库、最新的维基百科转储、各种 OPUS 语料库 以及由 Kemal Oflazer 提供的特殊语料库上训练的。
最终的训练语料库大小为 35GB,包含 44,049,766,62 个 token。
感谢 Google 的 TensorFlow 研究云(TFRC),我们能够在 TPU v3-8 上对 uncased 模型进行 200 万步的训练。
本模型的词汇表大小为 128k。
目前仅提供与 PyTorch-Transformers 兼容的权重。如果您需要 TensorFlow 检查点,请提交 issue!
| 模型 | 下载链接 |
|---|---|
dbmdz/bert-base-turkish-128k-uncased | config.json • pytorch_model.bin • vocab.txt |
当 Transformers 版本 >= 2.3 时,我们的 BERTurk uncased 模型可以按如下方式加载:
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-base-turkish-128k-uncased")
model = AutoModel.from_pretrained("dbmdz/bert-base-turkish-128k-uncased")有关词性标注(PoS tagging)或命名实体识别(NER)任务的结果,请参考 此仓库。
所有模型均在 Huggingface 模型中心 提供。
如对我们的 BERT 模型有任何疑问,欢迎在 此处 提交 issue 🤗
感谢 Kemal Oflazer 为我们提供了额外的土耳其语大型语料库。也非常感谢 Reyyan Yeniterzi 提供土耳其语命名实体识别数据集用于评估。
本研究得到了谷歌 TensorFlow 研究云(TFRC)提供的 Cloud TPU 支持。感谢提供 TFRC 的使用权限 ❤️
感谢 Hugging Face 团队的慷慨支持,使得我们能够从他们的 S3 存储中下载大小写两种版本的模型 🤗