Xiaomi MiMo/MiMo-V2.5-ASR
模型介绍文件和版本Pull Requests讨论分析
下载使用量0
Xiaomi-MiMo

━━━━━━━━━━━━━━━━━━━━━━━━━━━
MiMo-V2.5-ASR:跨语言、方言及复杂声学场景的
鲁棒语音识别系统
━━━━━━━━━━━━━━━━━━━━━━━━━━━


| 💻 GitHub  | 🚀 在线演示  | 📰 博客  |

简介

MiMo-V2.5-ASR 是由小米MiMo团队开发的一款先进的端到端自动语音识别(ASR)模型。该模型旨在针对普通话、英语、多种汉语方言、语码转换语音、歌曲歌词、知识密集型内容、嘈杂声学环境以及多说话人对话等场景,提供精准且鲁棒的转录服务。MiMo-V2.5-ASR 在众多公开基准测试中均取得了领先的结果。

摘要

自动语音识别系统需要能够准确转录来自不同语言、方言、口音和领域,并在各种声学条件下采集的语音信号。尽管传统的端到端模型在域内数据上表现良好,但在方言混合、语码转换、知识密集型内容、嘈杂环境和多说话人对话等复杂场景中,仍无法满足实际应用需求。我们提出MiMo-V2.5-ASR,这是一款由小米MiMo团队开发的大规模端到端语音识别模型。通过大规模中间训练、高质量有监督微调以及一种新颖的强化学习算法,MiMo-V2.5-ASR 在以下方面实现了系统性提升:

  • 🗣️ 汉语方言:原生支持吴语、粤语、闽南语、四川话等多种方言。
  • 🔀 语码转换:无需语言标签即可无缝转录汉英语码转换语音。
  • 🎵 歌曲识别:高精度转录中英文歌曲歌词,即使在伴奏与 vocals 混合的情况下也能表现出色。
  • 🔊 嘈杂环境:在强噪声、远场拾音等不利声学条件下仍能保持鲁棒识别。
  • 👥 多说话人:准确转录会议等重叠多 party 对话。
  • 🇬🇧 复杂英语场景:在 Open ASR Leaderboard 上针对 AMI 等具有挑战性的英语基准测试取得领先性能。
  • 📚 知识密集型识别:精准识别古典诗词、专业术语、人名、地名等知识密集型材料。
  • 📝 原生标点:从韵律和语义中自然生成标点,提供无需后处理即可直接使用的转录文本。

结果

MiMo-V2.5-ASR 已在一系列广泛的基准测试中完成评估,涵盖标准普通话与英语、汉语方言、歌词识别及内部业务场景。下图总结了 MiMo-V2.5-ASR 在这些场景下的平均性能表现。

ASR 结果

有关各基准测试的具体数据及定性案例,请参阅我们的 博客。

模型下载

模型🤗 Hugging Face🤖️ ModelScope
MiMo-Audio-TokenizerXiaomiMiMo/MiMo-Audio-TokenizerXiaomiMiMo/MiMo-Audio-Tokenizer
MiMo-V2.5-ASRXiaomiMiMo/MiMo-V2.5-ASRXiaomiMiMo/MiMo-V2.5-ASR
pip install huggingface-hub

hf download XiaomiMiMo/MiMo-Audio-Tokenizer --local-dir ./models/MiMo-Audio-Tokenizer
hf download XiaomiMiMo/MiMo-V2.5-ASR --local-dir ./models/MiMo-V2.5-ASR

快速开始

借助内置的 Gradio 应用,您可在几分钟内启动 MiMo-V2.5-ASR 演示。

前提条件(Linux)

  • Python 3.12
  • CUDA >= 12.0

安装

git clone https://github.com/XiaomiMiMo/MiMo-V2.5-ASR.git
cd MiMo-V2.5-ASR
pip install -r requirements.txt
pip install flash-attn==2.7.4.post1

[!Note] 如果 flash-attn 的编译耗时过长,您可以下载预编译的 wheel 包并手动安装:

  • 下载预编译 Wheel
pip install /path/to/flash_attn-2.7.4.post1+cu12torch2.6cxx11abiFALSE-cp312-cp312-linux_x86_64.whl

运行演示

python run_mimo_asr.py

这将启动 MiMo-V2.5-ASR 的本地 Gradio 界面。您可以:

  • 上传音频文件或直接通过麦克风录制。
  • 可选地指定语言标签(中文/英文/自动)以让模型偏向特定语言,或保留为自动以进行自动语言检测(推荐用于语码转换语音)。
  • 该演示在后台调用 asr_sft() 接口。

界面提供模型配置选项卡,用于设置本地模型和分词器路径;以及语音识别选项卡,您可以在此拖放音频、选择语言标签并点击 Transcribe——解码后的文本和处理状态将流式显示在右侧面板中。

MiMo-V2.5-ASR Gradio Demo
图:MiMo-V2.5-ASR 的 Gradio 演示 — 上传音频片段或通过麦克风录制,选择语言标签,右侧即可获得转录文本。

要在启动时自动加载模型和分词器,请在命令行中传入它们的路径:

python run_mimo_asr.py \
    --model-path ./models/MiMo-V2.5-ASR \
    --tokenizer-path ./models/MiMo-Audio-Tokenizer

否则,请在 模型配置 选项卡中输入 MiMo-Audio-Tokenizer 和 MiMo-V2.5-ASR 的本地路径,然后开始转录!

Python API

使用 asr_sft 接口的基本用法:

from src.mimo_audio.mimo_audio import MimoAudio

model = MimoAudio(
    model_path="./models/MiMo-V2.5-ASR",
    tokenizer_path="./models/MiMo-Audio-Tokenizer",
)

# Automatic language detection (recommended for code-switching)
text = model.asr_sft("path/to/audio.wav")
print(text)

# With explicit language tag
text_zh = model.asr_sft("path/to/audio.wav", audio_tag="<chinese>")
text_en = model.asr_sft("path/to/audio.wav", audio_tag="<english>")

引用

@misc{coreteam2026mimov25asr,
      title={MiMo-V2.5-ASR: Robust Speech Recognition Across Languages, Dialects, and Complex Acoustic Scenarios},
      author={LLM-Core-Team Xiaomi},
      year={2026},
      url={https://github.com/XiaomiMiMo/MiMo-V2.5-ASR},
}

联系方式

如有任何问题,请通过 mimo@xiaomi.com 与我们联系,或提交 issue。