该ASR模型是 facebook/wav2vec2-xls-r-300m 在土耳其语上的微调版本。
以下数据集用于微调:
为了支持上述两个数据集,执行了自定义的预处理和加载步骤,并使用了 wav2vec2-turkish 代码库。
微调使用了以下超参数:
N-gram语言模型是在土耳其语维基百科文章上使用KenLM训练的,并且使用 ngram-lm-wiki 代码库生成arpa语言模型并将其转换为二进制格式。
运行评估前,请安装 unicode_tr 包。它用于土耳其语文本处理。
mozilla-foundation/common_voice_7_0 的 test 拆分上进行评估python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv7-turkish --dataset mozilla-foundation/common_voice_7_0 --config tr --split testspeech-recognition-community-v2/dev_data 上进行评估python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv7-turkish --dataset speech-recognition-community-v2/dev_data --config tr --split validation --chunk_length_s 5.0 --stride_length_s 1.0| 数据集 | 词错误率(WER) | 字符错误率(CER) |
|---|---|---|
| Common Voice 7 TR 测试集 | 8.62 | 2.26 |
| 语音识别社区开发数据 | 30.87 | 10.69 |