这是一个基于日语文本预训练的 BERT 模型。
此版本模型对输入文本的处理流程为:先基于 Unidic 2.1.2 词典(可在 unidic-lite 包中获取)进行词级分词,再进行字符级分词。此外,该模型在掩码语言模型(MLM)任务的训练中启用了整词掩码功能。
预训练代码可在 cl-tohoku/bert-japanese 处获取。
该模型架构与原始 BERT base 模型一致:包含 12 层,隐藏状态维度为 768,注意力头数量为 12。
模型的训练数据来源于 CC-100 数据集 的日语部分以及日语版维基百科。对于维基百科,我们使用了 2023 年 1 月 2 日的 Wikipedia Cirrussearch 转储文件 生成文本语料库。从 CC-100 和维基百科生成的语料库文件大小分别为 74.3GB 和 4.9GB,句子数量分别约为 3.92 亿句和 3400 万句。
在将文本分割为句子时,我们使用了 fugashi 工具,并搭配 mecab-ipadic-NEologd 词典(v0.0.7 版本)。
文本首先通过 MeCab 结合 Unidic 2.1.2 词典进行分词,然后再拆分为字符。词汇表大小为 7027。
我们使用 fugashi 和 unidic-lite 包来完成分词操作。
我们首先在 CC-100 语料库上训练模型 100 万步,之后在维基百科语料库上继续训练 100 万步。在掩码语言模型(MLM)任务的训练中,我们引入了整词掩码机制,即一次性掩码由 MeCab 分词得到的单个词所对应的所有子词标记。
每个模型的训练均使用了由 TPU Research Cloud 提供的 Cloud TPU v3-8 实例。
预训练模型基于 Apache License 2.0 协议进行分发。
本模型的训练使用了由 TPU Research Cloud 计划提供的 Cloud TPU。