xlm-roberta-japanese-tokenizer:可用于对日语文本进行分词处理，助力日语NLP任务。该项目基于日本語wikipedia数据，通过Unidic分割与sentencepiece Unigram训练，提供符合XLM-Roberta格式的日语专用tokenizer。【此简介由AI生成】