HuggingFace镜像/deepspeech2
模型介绍文件和版本分析

介绍

DeepSpeech2是一种采用CTC损失训练的语音识别模型。它用神经网络取代了整个手工设计组件的管道,可以处理各种各样的语音,包括嘈杂的环境、口音和不同的语言。目前提供版本支持在NPU和GPU上使用DeepSpeech2模型在librispeech数据集上进行训练/测试和推理。

模型结构

目前的复现的模型包括:

  • 两个卷积层:
    • 通道数为 32,内核大小为 41, 11 ,步长为 2, 2
    • 通道数为 32,内核大小为 41, 11 ,步长为 2, 1
  • 五个双向 LSTM 层(大小为 1024)
  • 一个投影层【大小为字符数加 1(为CTC空白符号),28】

模型表现

模型机器LMTest Clean CERTest Clean WER参数权重
DeepSpeech2D910x8-GNo3.46110.24yamlweights

如何开始使用模型

有关如何训练和推理模型的信息,请查看MindAudio GitHub 仓库.

下载使用量0