HuggingFace镜像/wav2vec2-xls-r-300m-cv7-turkish
模型介绍文件和版本分析
下载使用量0

wav2vec2-xls-r-300m-cv7-turkish

模型描述

该ASR模型是 facebook/wav2vec2-xls-r-300m 在土耳其语上的微调版本。

训练与评估数据

以下数据集用于微调:

  • Common Voice 7.0 TR:使用了所有“已验证”(validated)数据拆分,其中“测试”(test)拆分除外,用于训练。
  • MediaSpeech

训练流程

为了支持上述两个数据集,执行了自定义的预处理和加载步骤,并使用了 wav2vec2-turkish 代码库。

训练超参数

微调使用了以下超参数:

  • learning_rate 2e-4
  • num_train_epochs 10
  • warmup_steps 500
  • freeze_feature_extractor
  • mask_time_prob 0.1
  • mask_feature_prob 0.05
  • feat_proj_dropout 0.05
  • attention_dropout 0.05
  • final_dropout 0.05
  • activation_dropout 0.05
  • per_device_train_batch_size 8
  • per_device_eval_batch_size 8
  • gradient_accumulation_steps 8

框架版本

  • Transformers 4.16.0.dev0
  • Pytorch 1.10.1
  • Datasets 1.17.0
  • Tokenizers 0.10.3

语言模型

N-gram语言模型是在土耳其语维基百科文章上使用KenLM训练的,并且使用 ngram-lm-wiki 代码库生成arpa语言模型并将其转换为二进制格式。

评估命令

运行评估前,请安装 unicode_tr 包。它用于土耳其语文本处理。

  1. 在 mozilla-foundation/common_voice_7_0 的 test 拆分上进行评估
python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv7-turkish --dataset mozilla-foundation/common_voice_7_0 --config tr --split test
  1. 在 speech-recognition-community-v2/dev_data 上进行评估
python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv7-turkish --dataset speech-recognition-community-v2/dev_data --config tr --split validation --chunk_length_s 5.0 --stride_length_s 1.0

评估结果:

数据集词错误率(WER)字符错误率(CER)
Common Voice 7 TR 测试集8.622.26
语音识别社区开发数据30.8710.69