HuggingFace镜像/whisper-large-v3-turbo-swissgerman
模型介绍文件和版本分析
下载使用量0

已清理仓库

模型已下架

由于部分数据集的许可问题,该模型已被迫下架。

Whisper Large V3 Turbo(使用QLoRa微调的瑞士德语模型)

本仓库包含 OpenAI 的 Whisper Large V3 Turbo 模型的微调版本,该版本通过 QLoRa 优化专门针对瑞士德语方言进行了适配。该模型在瑞士德语自动语音识别(ASR)方面达到了最先进的性能。

模型概述

  • 基础模型:Whisper Large V3 Turbo
  • 微调方法:QLoRa(8 位精度)
    • 秩(Rank):200
    • Alpha:16
  • 硬件:2 块 NVIDIA A100 80GB GPU
  • 训练时间:140 小时

性能指标

  • 词错误率(WER):17.5%
  • BLEU 分数:65.0

该模型的性能已在多个代表瑞士德语不同方言和人口分布的数据集上进行了评估。

数据集概述

该模型的训练和评估基于一套全面的瑞士德语数据集:

  1. SDS-200 语料库

    • 规模:200 小时
    • 描述:涵盖所有瑞士德语方言的语料库。
  2. STT4SG-350

    • 规模:343 小时
    • 描述:在瑞士德语方言和人口统计(包括性别代表性)方面分布均衡。
    • 数据集链接
  3. SwissDial-Zh v1.1

    • 规模:24 小时
    • 描述:瑞士德语方言代表性均衡的数据集。
    • 数据集链接
  4. 瑞士议会语料库 V2(SPC)

    • 规模:293 小时
    • 描述:涵盖瑞士德语各方言的议会录音。
    • 数据集链接
  5. ASGDTS(全瑞士德语方言测试集)

    • 规模:13 小时
    • 描述:分层数据集,与现实世界的瑞士德语方言分布高度相似。
    • 数据集链接

各数据集结果

WER 分数

模型WER (全部)WER SD (全部)
Turbo V3 Swiss German0.16720.1754
Large V30.28840.2829
Turbo V30.43920.2777

BLEU 分数

模型BLEU (全部)BLEU SD (全部)
Turbo V3 Swiss German0.650.3149
Large V30.53450.3453
Turbo V30.33670.2975

可视化结果

各数据集的 WER 和 BLEU 分数

General Results

各数据集的 WER 分数

WER Scores

各数据集的 BLEU 分数

BLEU Scores

使用方法

该模型可直接与 Hugging Face Transformers 库配合使用,适用于需要瑞士德语语音识别(ASR)的任务。

致谢

特别感谢本研究中使用的数据集的创建者和维护者:

  • Swiss NLP
  • ETH Zurich
  • FHNW

同时感谢日内瓦大学为我们提供其高性能计算集群的访问权限,本模型的训练工作在此集群上完成。

引用

如果您在研究工作中使用了本模型,请按以下方式引用本仓库:

@misc{whisper-large-v3-turbo-swissgerman,
  author = {Nizar Michaud},
  title = {Whisper Large V3 Turbo Fine-Tuned for Swiss German},
  year = {2024},
  publisher = {Hugging Face},
  url = {https://huggingface.co/nizarmichaud/whisper-large-v3-turbo-swissgerman},
  doi = 10.57967/hf/3858,
}