HuggingFace镜像/wav2vec2-conformer-rope-large
模型介绍文件和版本分析
下载使用量0

Wav2Vec2-Conformer-Large 结合旋转位置嵌入技术

本模型采用旋转位置嵌入(Rotary Position Embeddings)的Wav2Vec2 Conformer架构,基于16kHz采样的Librispeech语音数据进行了960小时的预训练。使用模型时请确保语音输入同样以16kHz频率采样。

注意:该模型仅通过音频进行预训练,未包含文本标记器。若需用于语音识别任务,需创建标记器并在标注文本数据上进行微调。详细微调方法可参阅此技术博客获取完整说明。

论文:fairseq S2T:基于fairseq的快速语音到文本建模

作者:Changhan Wang, Yun Tang, Xutai Ma, Anne Wu, Sravya Popuri, Dmytro Okhonko, Juan Pino

Wav2Vec2-Conformer的实验结果详见官方论文中的表3和表4。

原始模型代码库位于:https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20

使用指南

关于模型微调的具体操作,请参考此Colab笔记本。