BERT base Japanese（基于整词掩码的字符级分词，CC-100 与 jawiki-20230102）

这是一个基于日语文本预训练的 BERT 模型。

此版本模型对输入文本的处理流程为：先基于 Unidic 2.1.2 词典（可在 unidic-lite 包中获取）进行词级分词，再进行字符级分词。此外，该模型在掩码语言模型（MLM）任务的训练中启用了整词掩码功能。

预训练代码可在 cl-tohoku/bert-japanese 处获取。

模型架构

该模型架构与原始 BERT base 模型一致：包含 12 层，隐藏状态维度为 768，注意力头数量为 12。

训练数据

模型的训练数据来源于 CC-100 数据集的日语部分以及日语版维基百科。对于维基百科，我们使用了 2023 年 1 月 2 日的 Wikipedia Cirrussearch 转储文件生成文本语料库。从 CC-100 和维基百科生成的语料库文件大小分别为 74.3GB 和 4.9GB，句子数量分别约为 3.92 亿句和 3400 万句。

在将文本分割为句子时，我们使用了 fugashi 工具，并搭配 mecab-ipadic-NEologd 词典（v0.0.7 版本）。

分词

文本首先通过 MeCab 结合 Unidic 2.1.2 词典进行分词，然后再拆分为字符。词汇表大小为 7027。

我们使用 fugashi 和 unidic-lite 包来完成分词操作。

训练

我们首先在 CC-100 语料库上训练模型 100 万步，之后在维基百科语料库上继续训练 100 万步。在掩码语言模型（MLM）任务的训练中，我们引入了整词掩码机制，即一次性掩码由 MeCab 分词得到的单个词所对应的所有子词标记。

每个模型的训练均使用了由 TPU Research Cloud 提供的 Cloud TPU v3-8 实例。

许可协议

预训练模型基于 Apache License 2.0 协议进行分发。

致谢

本模型的训练使用了由 TPU Research Cloud 计划提供的 Cloud TPU。