Mega-ASR

Mega-ASR overview

Mega-ASR 是一款稳健的自动语音识别系统，专为存在严重声学退化问题的真实世界音频设计。它针对嘈杂、混响、削波、带宽受限、声音重叠及其他恶劣录音环境，而在这些环境中，标准 ASR 系统往往会输出空白内容、遗漏信息、重复内容或虚构文本。

本版本包含 Qwen3-ASR-1.7B 基础模型文件、Mega-ASR 适配权重以及音频质量路由器。该路由器会为每个输入判定应使用稳健的 Mega-ASR 路径还是基础识别路径，这有助于在提升退化语音识别稳健性的同时，保持清晰语音的识别质量。

模型详情

模型名称： Mega-ASR
任务： 自动语音识别
主干网络： Qwen3-ASR-1.7B
主要应用场景： 具有挑战性声学条件下的实际环境语音识别
默认解码方式： 贪婪解码
默认最大新 tokens 数： Mega-ASR 推理封装器中为 256
路由器： 音频质量分类器，默认阈值为 0.5
许可证： Apache-2.0

仓库内容

Mega-ASR/
├── Qwen3-ASR-1.7B/              # Backbone model, tokenizer, processor, and generation config
├── mega-asr-merged/             # Mega-ASR adaptation weights used by the inference wrapper
├── audio_quality_router/        # Audio quality router checkpoint
└── README.md                    # Model card

预期用途

Mega-ASR 旨在对真实世界音频进行语音转文本转录，尤其适用于受复合声学失真影响的音频。典型场景包括远场录音、环境噪声、混响、低质量麦克风、压缩伪影、部分信号损坏以及混合声学条件。

快速开始

安装 Mega-ASR 代码库及依赖项：

git clone https://github.com/xzf-thu/Mega-ASR.git
cd Mega-ASR

conda create -n mega-asr python=3.10 -y
conda activate mega-asr
pip install -r requirements.txt

将此检查点目录放置于：

ckpt/Mega-ASR

运行推理：

python infer.py --audio /path/to/audio.wav --ckpt_dir ckpt/Mega-ASR

如果您希望始终使用稳健识别路径，请禁用路由：

python infer.py --audio /path/to/audio.wav --ckpt_dir ckpt/Mega-ASR --routing false

Python 使用方法：

from MegaASR.model.megaASR import MegaASR

model = MegaASR(
    model_path="ckpt/Mega-ASR/Qwen3-ASR-1.7B",
    router_checkpoint="ckpt/Mega-ASR/audio_quality_router/best_acc_model.pt",
    routing_enabled=True,
)

result = model.infer("/path/to/audio.wav", return_route=True)
print(result)

解码默认值

Mega-ASR 封装器使用 Qwen3-ASR 的生成默认值，除非明确覆盖。在提供的封装器中，max_new_tokens 被设置为 256。

默认生成配置是确定性的：

do_sample: false
num_beams: 1
repetition_penalty: 1.0
top_p: 1.0
top_k: 50

由于 do_sample 设为 false，默认采用贪心解码方式，temperature、top-p 和 top-k 等采样控制参数对常规推理过程不产生影响。

训练概述

Mega-ASR 针对真实声学环境下的鲁棒语音识别任务进行训练。训练流程采用声学-语义监督微调方法，模型通过接触难度逐渐递增的语音样本，学习在信号退化情况下同时恢复局部声学细节和句子级语义信息。

该系统在提升对困难音频识别鲁棒性的同时，设计了路由机制以减少对干净音频的不必要修改。

Mega-ASR training and inference overview

评估

Mega-ASR 在标准 ASR 基准测试集、噪声鲁棒性基准测试集以及真实场景下的复合声学环境中进行评估。推荐使用以下评估指标：

WER（词错误率）：适用于英语及按空格分词的语言
CER（字符错误率）：适用于中文及基于字符的评估场景

Mega-ASR evaluation results

Mega-ASR 代码仓库包含一个评估脚本：

python src/MegaASR/eval/evaluate_wer.py \
  --ckpt_dir ckpt/Mega-ASR \
  --input_jsonl examples/test.jsonl \
  --output_jsonl outputs/pred_with_wer.jsonl

输入 JSONL 格式：

{"audio": "examples/audio/noise.wav", "answer": "I usually take the quieter road home because the main street gets crowded after work."}

引用说明

如果您使用 Mega-ASR，请引用本项目：

@misc{xie2026megaasrinthewild2speechrecognition,
      title={Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation},
      author={Zhifei Xie and Kaiyu Pang and Haobin Zhang and Deheng Ye and Xiaobin Hu and Shuicheng Yan and Chunyan Miao},
      year={2026},
      eprint={2605.19833},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2605.19833},
}

致谢

Mega-ASR 基于 Qwen3-ASR 构建。我们感谢 Qwen3-ASR 团队以及本项目中所使用的公共语音和音频数据集的创建者。