wav2vec2-xls-r-300m-cv7-turkish

模型描述

该ASR模型是 facebook/wav2vec2-xls-r-300m 在土耳其语上的微调版本。

训练与评估数据

以下数据集用于微调：

Common Voice 7.0 TR：使用了所有“已验证”（validated）数据拆分，其中“测试”（test）拆分除外，用于训练。
MediaSpeech

训练流程

为了支持上述两个数据集，执行了自定义的预处理和加载步骤，并使用了 wav2vec2-turkish 代码库。

训练超参数

微调使用了以下超参数：

learning_rate 2e-4
num_train_epochs 10
warmup_steps 500
freeze_feature_extractor
mask_time_prob 0.1
mask_feature_prob 0.05
feat_proj_dropout 0.05
attention_dropout 0.05
final_dropout 0.05
activation_dropout 0.05
per_device_train_batch_size 8
per_device_eval_batch_size 8
gradient_accumulation_steps 8

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.1
Datasets 1.17.0
Tokenizers 0.10.3

语言模型

N-gram语言模型是在土耳其语维基百科文章上使用KenLM训练的，并且使用 ngram-lm-wiki 代码库生成arpa语言模型并将其转换为二进制格式。

评估命令

运行评估前，请安装 unicode_tr 包。它用于土耳其语文本处理。

在 mozilla-foundation/common_voice_7_0 的 test 拆分上进行评估

python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv7-turkish --dataset mozilla-foundation/common_voice_7_0 --config tr --split test

在 speech-recognition-community-v2/dev_data 上进行评估

python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv7-turkish --dataset speech-recognition-community-v2/dev_data --config tr --split validation --chunk_length_s 5.0 --stride_length_s 1.0

评估结果：

数据集	词错误率（WER）	字符错误率（CER）
Common Voice 7 TR 测试集	8.62	2.26
语音识别社区开发数据	30.87	10.69