MiMo-V2.5-ASR 是由小米MiMo团队开发的一款先进的端到端自动语音识别(ASR)模型。该模型旨在针对普通话、英语、多种汉语方言、语码转换语音、歌曲歌词、知识密集型内容、嘈杂声学环境以及多说话人对话等场景,提供精准且鲁棒的转录服务。MiMo-V2.5-ASR 在众多公开基准测试中均取得了领先的结果。
自动语音识别系统需要能够准确转录来自不同语言、方言、口音和领域,并在各种声学条件下采集的语音信号。尽管传统的端到端模型在域内数据上表现良好,但在方言混合、语码转换、知识密集型内容、嘈杂环境和多说话人对话等复杂场景中,仍无法满足实际应用需求。我们提出MiMo-V2.5-ASR,这是一款由小米MiMo团队开发的大规模端到端语音识别模型。通过大规模中间训练、高质量有监督微调以及一种新颖的强化学习算法,MiMo-V2.5-ASR 在以下方面实现了系统性提升:
MiMo-V2.5-ASR 已在一系列广泛的基准测试中完成评估,涵盖标准普通话与英语、汉语方言、歌词识别及内部业务场景。下图总结了 MiMo-V2.5-ASR 在这些场景下的平均性能表现。

有关各基准测试的具体数据及定性案例,请参阅我们的 博客。
| 模型 | 🤗 Hugging Face | 🤖️ ModelScope |
|---|---|---|
| MiMo-Audio-Tokenizer | XiaomiMiMo/MiMo-Audio-Tokenizer | XiaomiMiMo/MiMo-Audio-Tokenizer |
| MiMo-V2.5-ASR | XiaomiMiMo/MiMo-V2.5-ASR | XiaomiMiMo/MiMo-V2.5-ASR |
pip install huggingface-hub
hf download XiaomiMiMo/MiMo-Audio-Tokenizer --local-dir ./models/MiMo-Audio-Tokenizer
hf download XiaomiMiMo/MiMo-V2.5-ASR --local-dir ./models/MiMo-V2.5-ASR借助内置的 Gradio 应用,您可在几分钟内启动 MiMo-V2.5-ASR 演示。
git clone https://github.com/XiaomiMiMo/MiMo-V2.5-ASR.git
cd MiMo-V2.5-ASR
pip install -r requirements.txt
pip install flash-attn==2.7.4.post1[!Note] 如果 flash-attn 的编译耗时过长,您可以下载预编译的 wheel 包并手动安装:
pip install /path/to/flash_attn-2.7.4.post1+cu12torch2.6cxx11abiFALSE-cp312-cp312-linux_x86_64.whl
python run_mimo_asr.py这将启动 MiMo-V2.5-ASR 的本地 Gradio 界面。您可以:
asr_sft() 接口。界面提供模型配置选项卡,用于设置本地模型和分词器路径;以及语音识别选项卡,您可以在此拖放音频、选择语言标签并点击 Transcribe——解码后的文本和处理状态将流式显示在右侧面板中。
图:MiMo-V2.5-ASR 的 Gradio 演示 — 上传音频片段或通过麦克风录制,选择语言标签,右侧即可获得转录文本。
要在启动时自动加载模型和分词器,请在命令行中传入它们的路径:
python run_mimo_asr.py \
--model-path ./models/MiMo-V2.5-ASR \
--tokenizer-path ./models/MiMo-Audio-Tokenizer否则,请在 模型配置 选项卡中输入 MiMo-Audio-Tokenizer 和 MiMo-V2.5-ASR 的本地路径,然后开始转录!
使用 asr_sft 接口的基本用法:
from src.mimo_audio.mimo_audio import MimoAudio
model = MimoAudio(
model_path="./models/MiMo-V2.5-ASR",
tokenizer_path="./models/MiMo-Audio-Tokenizer",
)
# Automatic language detection (recommended for code-switching)
text = model.asr_sft("path/to/audio.wav")
print(text)
# With explicit language tag
text_zh = model.asr_sft("path/to/audio.wav", audio_tag="<chinese>")
text_en = model.asr_sft("path/to/audio.wav", audio_tag="<english>")@misc{coreteam2026mimov25asr,
title={MiMo-V2.5-ASR: Robust Speech Recognition Across Languages, Dialects, and Complex Acoustic Scenarios},
author={LLM-Core-Team Xiaomi},
year={2026},
url={https://github.com/XiaomiMiMo/MiMo-V2.5-ASR},
}如有任何问题,请通过 mimo@xiaomi.com 与我们联系,或提交 issue。