介绍
DeepSpeech2是一种采用CTC损失训练的语音识别模型。它用神经网络取代了整个手工设计组件的管道,可以处理各种各样的语音,包括嘈杂的环境、口音和不同的语言。目前提供版本支持在NPU和GPU上使用DeepSpeech2模型在librispeech数据集上进行训练/测试和推理。
模型结构
目前的复现的模型包括:
- 两个卷积层:
- 通道数为 32,内核大小为 41, 11 ,步长为 2, 2
- 通道数为 32,内核大小为 41, 11 ,步长为 2, 1
- 五个双向 LSTM 层(大小为 1024)
- 一个投影层【大小为字符数加 1(为CTC空白符号),28】
模型表现
| 模型 | 机器 | LM | Test Clean CER | Test Clean WER | 参数 | 权重 |
|---|
| DeepSpeech2 | D910x8-G | No | 3.461 | 10.24 | yaml | weights |
如何开始使用模型
有关如何训练和推理模型的信息,请查看MindAudio GitHub 仓库.