Mega-ASR 是一款稳健的自动语音识别系统,专为存在严重声学退化问题的真实世界音频设计。它针对嘈杂、混响、削波、带宽受限、声音重叠及其他恶劣录音环境,而在这些环境中,标准 ASR 系统往往会输出空白内容、遗漏信息、重复内容或虚构文本。
本版本包含 Qwen3-ASR-1.7B 基础模型文件、Mega-ASR 适配权重以及音频质量路由器。该路由器会为每个输入判定应使用稳健的 Mega-ASR 路径还是基础识别路径,这有助于在提升退化语音识别稳健性的同时,保持清晰语音的识别质量。
Mega-ASR/
├── Qwen3-ASR-1.7B/ # Backbone model, tokenizer, processor, and generation config
├── mega-asr-merged/ # Mega-ASR adaptation weights used by the inference wrapper
├── audio_quality_router/ # Audio quality router checkpoint
└── README.md # Model cardMega-ASR 旨在对真实世界音频进行语音转文本转录,尤其适用于受复合声学失真影响的音频。典型场景包括远场录音、环境噪声、混响、低质量麦克风、压缩伪影、部分信号损坏以及混合声学条件。
安装 Mega-ASR 代码库及依赖项:
git clone https://github.com/xzf-thu/Mega-ASR.git
cd Mega-ASR
conda create -n mega-asr python=3.10 -y
conda activate mega-asr
pip install -r requirements.txt将此检查点目录放置于:
ckpt/Mega-ASR运行推理:
python infer.py --audio /path/to/audio.wav --ckpt_dir ckpt/Mega-ASR如果您希望始终使用稳健识别路径,请禁用路由:
python infer.py --audio /path/to/audio.wav --ckpt_dir ckpt/Mega-ASR --routing falsePython 使用方法:
from MegaASR.model.megaASR import MegaASR
model = MegaASR(
model_path="ckpt/Mega-ASR/Qwen3-ASR-1.7B",
router_checkpoint="ckpt/Mega-ASR/audio_quality_router/best_acc_model.pt",
routing_enabled=True,
)
result = model.infer("/path/to/audio.wav", return_route=True)
print(result)Mega-ASR 封装器使用 Qwen3-ASR 的生成默认值,除非明确覆盖。在提供的封装器中,max_new_tokens 被设置为 256。
默认生成配置是确定性的:
do_sample: false
num_beams: 1
repetition_penalty: 1.0
top_p: 1.0
top_k: 50由于 do_sample 设为 false,默认采用贪心解码方式,temperature、top-p 和 top-k 等采样控制参数对常规推理过程不产生影响。
Mega-ASR 针对真实声学环境下的鲁棒语音识别任务进行训练。训练流程采用声学-语义监督微调方法,模型通过接触难度逐渐递增的语音样本,学习在信号退化情况下同时恢复局部声学细节和句子级语义信息。
该系统在提升对困难音频识别鲁棒性的同时,设计了路由机制以减少对干净音频的不必要修改。
Mega-ASR 在标准 ASR 基准测试集、噪声鲁棒性基准测试集以及真实场景下的复合声学环境中进行评估。推荐使用以下评估指标:
Mega-ASR 代码仓库包含一个评估脚本:
python src/MegaASR/eval/evaluate_wer.py \
--ckpt_dir ckpt/Mega-ASR \
--input_jsonl examples/test.jsonl \
--output_jsonl outputs/pred_with_wer.jsonl输入 JSONL 格式:
{"audio": "examples/audio/noise.wav", "answer": "I usually take the quieter road home because the main street gets crowded after work."}如果您使用 Mega-ASR,请引用本项目:
@misc{xie2026megaasrinthewild2speechrecognition,
title={Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation},
author={Zhifei Xie and Kaiyu Pang and Haobin Zhang and Deheng Ye and Xiaobin Hu and Shuicheng Yan and Chunyan Miao},
year={2026},
eprint={2605.19833},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2605.19833},
}Mega-ASR 基于 Qwen3-ASR 构建。我们感谢 Qwen3-ASR 团队以及本项目中所使用的公共语音和音频数据集的创建者。