deepspeech2:可用于在NPU和GPU上进行语音识别任务，支持嘈杂环境、口音和不同语言。项目提供DeepSpeech2模型，包含卷积层、双向LSTM层和投影层，支持在librispeech数据集上训练、测试和推理。【此简介由AI生成】

介绍

DeepSpeech2是一种采用CTC损失训练的语音识别模型。它用神经网络取代了整个手工设计组件的管道，可以处理各种各样的语音，包括嘈杂的环境、口音和不同的语言。目前提供版本支持在NPU和GPU上使用DeepSpeech2模型在librispeech数据集上进行训练/测试和推理。

目前的复现的模型包括:

模型	机器	LM	Test Clean CER	Test Clean WER	参数	权重
DeepSpeech2	D910x8-G	No	3.461	10.24	yaml	weights

有关如何训练和推理模型的信息，请查看MindAudio GitHub 仓库.