HuggingFace镜像/Mega-ASR
模型介绍文件和版本分析
下载使用量0

Mega-ASR

Mega-ASR overview

Mega-ASR 是一款稳健的自动语音识别系统,专为存在严重声学退化问题的真实世界音频设计。它针对嘈杂、混响、削波、带宽受限、声音重叠及其他恶劣录音环境,而在这些环境中,标准 ASR 系统往往会输出空白内容、遗漏信息、重复内容或虚构文本。

本版本包含 Qwen3-ASR-1.7B 基础模型文件、Mega-ASR 适配权重以及音频质量路由器。该路由器会为每个输入判定应使用稳健的 Mega-ASR 路径还是基础识别路径,这有助于在提升退化语音识别稳健性的同时,保持清晰语音的识别质量。

模型详情

  • 模型名称: Mega-ASR
  • 任务: 自动语音识别
  • 主干网络: Qwen3-ASR-1.7B
  • 主要应用场景: 具有挑战性声学条件下的实际环境语音识别
  • 默认解码方式: 贪婪解码
  • 默认最大新 tokens 数: Mega-ASR 推理封装器中为 256
  • 路由器: 音频质量分类器,默认阈值为 0.5
  • 许可证: Apache-2.0

仓库内容

Mega-ASR/
├── Qwen3-ASR-1.7B/              # Backbone model, tokenizer, processor, and generation config
├── mega-asr-merged/             # Mega-ASR adaptation weights used by the inference wrapper
├── audio_quality_router/        # Audio quality router checkpoint
└── README.md                    # Model card

预期用途

Mega-ASR 旨在对真实世界音频进行语音转文本转录,尤其适用于受复合声学失真影响的音频。典型场景包括远场录音、环境噪声、混响、低质量麦克风、压缩伪影、部分信号损坏以及混合声学条件。

快速开始

安装 Mega-ASR 代码库及依赖项:

git clone https://github.com/xzf-thu/Mega-ASR.git
cd Mega-ASR

conda create -n mega-asr python=3.10 -y
conda activate mega-asr
pip install -r requirements.txt

将此检查点目录放置于:

ckpt/Mega-ASR

运行推理:

python infer.py --audio /path/to/audio.wav --ckpt_dir ckpt/Mega-ASR

如果您希望始终使用稳健识别路径,请禁用路由:

python infer.py --audio /path/to/audio.wav --ckpt_dir ckpt/Mega-ASR --routing false

Python 使用方法:

from MegaASR.model.megaASR import MegaASR

model = MegaASR(
    model_path="ckpt/Mega-ASR/Qwen3-ASR-1.7B",
    router_checkpoint="ckpt/Mega-ASR/audio_quality_router/best_acc_model.pt",
    routing_enabled=True,
)

result = model.infer("/path/to/audio.wav", return_route=True)
print(result)

解码默认值

Mega-ASR 封装器使用 Qwen3-ASR 的生成默认值,除非明确覆盖。在提供的封装器中,max_new_tokens 被设置为 256。

默认生成配置是确定性的:

do_sample: false
num_beams: 1
repetition_penalty: 1.0
top_p: 1.0
top_k: 50

由于 do_sample 设为 false,默认采用贪心解码方式,temperature、top-p 和 top-k 等采样控制参数对常规推理过程不产生影响。

训练概述

Mega-ASR 针对真实声学环境下的鲁棒语音识别任务进行训练。训练流程采用声学-语义监督微调方法,模型通过接触难度逐渐递增的语音样本,学习在信号退化情况下同时恢复局部声学细节和句子级语义信息。

该系统在提升对困难音频识别鲁棒性的同时,设计了路由机制以减少对干净音频的不必要修改。

Mega-ASR training and inference overview

评估

Mega-ASR 在标准 ASR 基准测试集、噪声鲁棒性基准测试集以及真实场景下的复合声学环境中进行评估。推荐使用以下评估指标:

  • WER(词错误率):适用于英语及按空格分词的语言
  • CER(字符错误率):适用于中文及基于字符的评估场景

Mega-ASR evaluation results

Mega-ASR 代码仓库包含一个评估脚本:

python src/MegaASR/eval/evaluate_wer.py \
  --ckpt_dir ckpt/Mega-ASR \
  --input_jsonl examples/test.jsonl \
  --output_jsonl outputs/pred_with_wer.jsonl

输入 JSONL 格式:

{"audio": "examples/audio/noise.wav", "answer": "I usually take the quieter road home because the main street gets crowded after work."}

引用说明

如果您使用 Mega-ASR,请引用本项目:

@misc{xie2026megaasrinthewild2speechrecognition,
      title={Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation},
      author={Zhifei Xie and Kaiyu Pang and Haobin Zhang and Deheng Ye and Xiaobin Hu and Shuicheng Yan and Chunyan Miao},
      year={2026},
      eprint={2605.19833},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2605.19833},
}

致谢

Mega-ASR 基于 Qwen3-ASR 构建。我们感谢 Qwen3-ASR 团队以及本项目中所使用的公共语音和音频数据集的创建者。