HuggingFace镜像/indobert-base-uncased
模型介绍文件和版本分析

关于

IndoBERT 是印尼语版本的 BERT 模型。我们使用超过 2.2 亿个单词训练该模型,这些单词来源于三个主要渠道:

  • 印尼语维基百科(7400 万个单词)
  • 来自 Kompas、Tempo(Tala et al., 2003)和 Liputan6 的新闻文章(共计 5500 万个单词)
  • 印尼语网络语料库(Medved and Suchomel, 2017)(9000 万个单词)

我们对模型进行了 240 万步(180 个 epoch)的训练,最终在开发集上的困惑度为 3.97(与英语 BERT-base 相当)。

此 IndoBERT 用于研究 IndoLEM——一个印尼语基准测试集,包含七个印尼语任务,涵盖形态句法、语义和语篇。

任务指标Bi-LSTMmBERTMalayBERTIndoBERT
词性标注准确率95.496.896.896.8
命名实体识别 UGMF1 值70.971.673.274.9
命名实体识别 UIF1 值82.282.287.490.1
依存句法分析(UD-Indo-GSD)UAS/LAS85.25/80.3586.85/81.7886.99/81.8787.12/82.32
依存句法分析(UD-Indo-PUD)UAS/LAS84.04/79.0190.58/85.4488.91/83.5689.23/83.95
情感分析F1 值71.6276.5882.0284.13
文本摘要R1/R2/RL67.96/61.65/67.2468.40/61.66/67.6768.44/61.38/67.7169.93/62.86/69.21
下一条推文预测准确率73.692.493.193.7
推文排序斯皮尔曼相关系数0.450.530.510.59

该论文发表于 2020 年第 28 届 COLING 会议。有关基准测试的更多详细信息,请参阅 https://indolem.github.io。

使用方法

加载模型和分词器(已使用 transformers==3.5.1 测试)

from transformers import AutoTokenizer, AutoModel
import torch
import torch_npu

device = torch.device('npu:0')
tokenizer = AutoTokenizer.from_pretrained("indolem/indobert-base-uncased")
model = AutoModel.from_pretrained("indolem/indobert-base-uncased").to(device)

引用说明

如果您使用了我们的研究成果,请引用:

@inproceedings{koto2020indolem,
  title={IndoLEM and IndoBERT: A Benchmark Dataset and Pre-trained Language Model for Indonesian NLP},
  author={Fajri Koto and Afshin Rahimi and Jey Han Lau and Timothy Baldwin},
  booktitle={Proceedings of the 28th COLING},
  year={2020}
}
下载使用量0