Wav2Vec2-Conformer-Large 结合旋转位置嵌入技术

本模型采用旋转位置嵌入（Rotary Position Embeddings）的Wav2Vec2 Conformer架构，基于16kHz采样的Librispeech语音数据进行了960小时的预训练。使用模型时请确保语音输入同样以16kHz频率采样。

注意：该模型仅通过音频进行预训练，未包含文本标记器。若需用于语音识别任务，需创建标记器并在标注文本数据上进行微调。详细微调方法可参阅此技术博客获取完整说明。

作者：Changhan Wang, Yun Tang, Xutai Ma, Anne Wu, Sravya Popuri, Dmytro Okhonko, Juan Pino

Wav2Vec2-Conformer的实验结果详见官方论文中的表3和表4。

使用指南

关于模型微调的具体操作，请参考此Colab笔记本。

作者：Changhan Wang, Yun Tang, Xutai Ma, Anne Wu, Sravya Popuri, Dmytro Okhonko, Juan Pino

Wav2Vec2-Conformer的实验结果详见官方论文中的表3和表4。

关于模型微调的具体操作，请参考此Colab笔记本。