HuggingFace镜像/FireRedASR-AED-L
模型介绍文件和版本分析
下载使用量0

FireRedASR 是一系列大规模自动语音识别(ASR)模型,支持普通话、汉语方言及英语,同时具备歌唱歌词识别能力,在公开的普通话 ASR 基准测试中达到了新的最先进水平。

FireRedASR 旨在满足不同应用场景下对卓越性能和优化效率的多样化需求。它包含两个变体:

  • FireRedASR-LLM:旨在实现最先进(SOTA)性能并支持无缝的端到端语音交互。它采用 Encoder-Adapter-LLM 框架,充分利用大型语言模型(LLM)的能力。
  • FireRedASR-AED:旨在平衡高性能与计算效率,并在基于 LLM 的语音模型中充当高效的语音表征模块。它采用基于注意力机制的编码器 - 解码器(AED)架构。