HuggingFace镜像/conformer
模型介绍文件和版本分析
下载使用量0

介绍

conformer是将一种transformer和cnn结合起来,对音频序列进行局部和全局依赖都进行建模的模型。目前基于transformer和卷积神经网络cnn的模型在ASR上已经达到了较好的效果,Transformer能够捕获长序列的依赖和基于内容的全局交互信息,CNN则能够有效利用局部特征,因此针对语音识别问题提出了卷积增强的transformer模型,称为conformer,模型性能优于transformer和cnn。目前提供版本支持在NPU和GPU上使用conformer模型在aishell-1数据集上进行训练/测试和推理。

模型结构

Conformer整体结构包括:SpecAug、ConvolutionSubsampling、Linear、Dropout、ConformerBlocks×N,可见如下结构图。

  • ConformerBlock结构(N个该结构):Feed Forward Module、Multi-Head Self Attention Module、Convolution Module、Feed Forward Module、Layernorm。其中每个Module都是前接一个Layernorm后接一个Dropout,且都有残差链连接,残差数据为输入数据本身。

  • 马卡龙结构:可以看到ConformerBlock神似马卡龙结构,即两个一样的Feed Forward Module中间夹了Multi-Head Self Attention Module和Convolution。

    image-20230310165349460

模型表现

  • Feature info: using fbank feature, cmvn, online speed perturb
  • Training info: lr 0.001, acc_grad 1, 240 epochs, 8 Ascend910
  • Decoding info: ctc_weight 0.3, average_num 30
  • Performance result: total_time 11h17min, 8p, using hccl_tools.
modeldecoding modeCER
conformerctc greedy search5.05
conformerctc prefix beam search5.05
conformerattention decoder5.00
conformerattention rescoring4.73

如何开始使用模型

有关如何训练和推理模型的信息,请查看MindAudio GitHub 仓库.