conformer:可用于在NPU和GPU上进行语音识别模型的训练、测试与推理。该项目实现了结合Transformer和CNN的Conformer模型，能同时建模音频序列的局部与全局依赖，在AIShell-1数据集上表现出优于Transformer和CNN的性能。【此简介由AI生成】

介绍

conformer是将一种transformer和cnn结合起来，对音频序列进行局部和全局依赖都进行建模的模型。目前基于transformer和卷积神经网络cnn的模型在ASR上已经达到了较好的效果，Transformer能够捕获长序列的依赖和基于内容的全局交互信息，CNN则能够有效利用局部特征，因此针对语音识别问题提出了卷积增强的transformer模型，称为conformer，模型性能优于transformer和cnn。目前提供版本支持在NPU和GPU上使用conformer模型在aishell-1数据集上进行训练/测试和推理。

模型结构

Conformer整体结构包括：SpecAug、ConvolutionSubsampling、Linear、Dropout、ConformerBlocks×N，可见如下结构图。

ConformerBlock结构（N个该结构）：Feed Forward Module、Multi-Head Self Attention Module、Convolution Module、Feed Forward Module、Layernorm。其中每个Module都是前接一个Layernorm后接一个Dropout，且都有残差链连接，残差数据为输入数据本身。
马卡龙结构：可以看到ConformerBlock神似马卡龙结构，即两个一样的Feed Forward Module中间夹了Multi-Head Self Attention Module和Convolution。

模型表现

Feature info: using fbank feature, cmvn, online speed perturb
Training info: lr 0.001, acc_grad 1, 240 epochs, 8 Ascend910
Decoding info: ctc_weight 0.3, average_num 30
Performance result: total_time 11h17min, 8p, using hccl_tools.

model	decoding mode	CER
conformer	ctc greedy search	5.05
conformer	ctc prefix beam search	5.05
conformer	attention decoder	5.00
conformer	attention rescoring	4.73

如何开始使用模型

有关如何训练和推理模型的信息，请查看MindAudio GitHub 仓库.

介绍

模型结构

Conformer整体结构包括：SpecAug、ConvolutionSubsampling、Linear、Dropout、ConformerBlocks×N，可见如下结构图。

ConformerBlock结构（N个该结构）：Feed Forward Module、Multi-Head Self Attention Module、Convolution Module、Feed Forward Module、Layernorm。其中每个Module都是前接一个Layernorm后接一个Dropout，且都有残差链连接，残差数据为输入数据本身。
马卡龙结构：可以看到ConformerBlock神似马卡龙结构，即两个一样的Feed Forward Module中间夹了Multi-Head Self Attention Module和Convolution。

模型表现

Feature info: using fbank feature, cmvn, online speed perturb
Training info: lr 0.001, acc_grad 1, 240 epochs, 8 Ascend910
Decoding info: ctc_weight 0.3, average_num 30
Performance result: total_time 11h17min, 8p, using hccl_tools.

model	decoding mode	CER
conformer	ctc greedy search	5.05
conformer	ctc prefix beam search	5.05
conformer	attention decoder	5.00
conformer	attention rescoring	4.73

如何开始使用模型

有关如何训练和推理模型的信息，请查看MindAudio GitHub 仓库.