MiMo-V2.5-ASR:可用于准确转录多种语言、方言、混合语音及复杂场景下的音频内容。该项目是小米MiMo团队开发的端到端ASR模型，支持多语言代码切换、歌曲识别、噪声环境适应等核心功能，原生生成带标点的转录文本。【此简介由AI生成】

━━━━━━━━━━━━━━━━━━━━━━━━━━━
MiMo-V2.5-ASR：跨语言、方言及复杂声学场景的
鲁棒语音识别系统
━━━━━━━━━━━━━━━━━━━━━━━━━━━

简介

MiMo-V2.5-ASR 是由小米MiMo团队开发的一款先进的端到端自动语音识别（ASR）模型。该模型旨在针对普通话、英语、多种汉语方言、语码转换语音、歌曲歌词、知识密集型内容、嘈杂声学环境以及多说话人对话等场景，提供精准且鲁棒的转录服务。MiMo-V2.5-ASR 在众多公开基准测试中均取得了领先的结果。

摘要

自动语音识别系统需要能够准确转录来自不同语言、方言、口音和领域，并在各种声学条件下采集的语音信号。尽管传统的端到端模型在域内数据上表现良好，但在方言混合、语码转换、知识密集型内容、嘈杂环境和多说话人对话等复杂场景中，仍无法满足实际应用需求。我们提出MiMo-V2.5-ASR，这是一款由小米MiMo团队开发的大规模端到端语音识别模型。通过大规模中间训练、高质量有监督微调以及一种新颖的强化学习算法，MiMo-V2.5-ASR 在以下方面实现了系统性提升：

🗣️ 汉语方言：原生支持吴语、粤语、闽南语、四川话等多种方言。
🔀 语码转换：无需语言标签即可无缝转录汉英语码转换语音。
🎵 歌曲识别：高精度转录中英文歌曲歌词，即使在伴奏与 vocals 混合的情况下也能表现出色。
🔊 嘈杂环境：在强噪声、远场拾音等不利声学条件下仍能保持鲁棒识别。
👥 多说话人：准确转录会议等重叠多 party 对话。
🇬🇧 复杂英语场景：在 Open ASR Leaderboard 上针对 AMI 等具有挑战性的英语基准测试取得领先性能。
📚 知识密集型识别：精准识别古典诗词、专业术语、人名、地名等知识密集型材料。
📝 原生标点：从韵律和语义中自然生成标点，提供无需后处理即可直接使用的转录文本。

结果

MiMo-V2.5-ASR 已在一系列广泛的基准测试中完成评估，涵盖标准普通话与英语、汉语方言、歌词识别及内部业务场景。下图总结了 MiMo-V2.5-ASR 在这些场景下的平均性能表现。

ASR 结果

有关各基准测试的具体数据及定性案例，请参阅我们的博客。

模型下载

模型	🤗 Hugging Face	🤖️ ModelScope
MiMo-Audio-Tokenizer	XiaomiMiMo/MiMo-Audio-Tokenizer	XiaomiMiMo/MiMo-Audio-Tokenizer
MiMo-V2.5-ASR	XiaomiMiMo/MiMo-V2.5-ASR	XiaomiMiMo/MiMo-V2.5-ASR

pip install huggingface-hub

hf download XiaomiMiMo/MiMo-Audio-Tokenizer --local-dir ./models/MiMo-Audio-Tokenizer
hf download XiaomiMiMo/MiMo-V2.5-ASR --local-dir ./models/MiMo-V2.5-ASR

快速开始

借助内置的 Gradio 应用，您可在几分钟内启动 MiMo-V2.5-ASR 演示。

前提条件（Linux）

Python 3.12
CUDA >= 12.0

安装

git clone https://github.com/XiaomiMiMo/MiMo-V2.5-ASR.git
cd MiMo-V2.5-ASR
pip install -r requirements.txt
pip install flash-attn==2.7.4.post1

[!Note] 如果 flash-attn 的编译耗时过长，您可以下载预编译的 wheel 包并手动安装：

下载预编译 Wheel
pip install /path/to/flash_attn-2.7.4.post1+cu12torch2.6cxx11abiFALSE-cp312-cp312-linux_x86_64.whl

运行演示

python run_mimo_asr.py

这将启动 MiMo-V2.5-ASR 的本地 Gradio 界面。您可以：

上传音频文件或直接通过麦克风录制。
可选地指定语言标签（中文/英文/自动）以让模型偏向特定语言，或保留为自动以进行自动语言检测（推荐用于语码转换语音）。
该演示在后台调用 asr_sft() 接口。

界面提供模型配置选项卡，用于设置本地模型和分词器路径；以及语音识别选项卡，您可以在此拖放音频、选择语言标签并点击 Transcribe——解码后的文本和处理状态将流式显示在右侧面板中。

MiMo-V2.5-ASR Gradio Demo
图：MiMo-V2.5-ASR 的 Gradio 演示 — 上传音频片段或通过麦克风录制，选择语言标签，右侧即可获得转录文本。

要在启动时自动加载模型和分词器，请在命令行中传入它们的路径：

python run_mimo_asr.py \
    --model-path ./models/MiMo-V2.5-ASR \
    --tokenizer-path ./models/MiMo-Audio-Tokenizer

否则，请在 模型配置 选项卡中输入 MiMo-Audio-Tokenizer 和 MiMo-V2.5-ASR 的本地路径，然后开始转录！

Python API

使用 asr_sft 接口的基本用法：

from src.mimo_audio.mimo_audio import MimoAudio

model = MimoAudio(
    model_path="./models/MiMo-V2.5-ASR",
    tokenizer_path="./models/MiMo-Audio-Tokenizer",
)

# Automatic language detection (recommended for code-switching)
text = model.asr_sft("path/to/audio.wav")
print(text)

# With explicit language tag
text_zh = model.asr_sft("path/to/audio.wav", audio_tag="<chinese>")
text_en = model.asr_sft("path/to/audio.wav", audio_tag="<english>")

引用

@misc{coreteam2026mimov25asr,
      title={MiMo-V2.5-ASR: Robust Speech Recognition Across Languages, Dialects, and Complex Acoustic Scenarios},
      author={LLM-Core-Team Xiaomi},
      year={2026},
      url={https://github.com/XiaomiMiMo/MiMo-V2.5-ASR},
}

联系方式

如有任何问题，请通过 mimo@xiaomi.com 与我们联系，或提交 issue。

━━━━━━━━━━━━━━━━━━━━━━━━━━━
MiMo-V2.5-ASR：跨语言、方言及复杂声学场景的
鲁棒语音识别系统
━━━━━━━━━━━━━━━━━━━━━━━━━━━

| 💻 GitHub | 🚀 在线演示 | 📰 博客 |

简介

摘要

🗣️ 汉语方言：原生支持吴语、粤语、闽南语、四川话等多种方言。
🔀 语码转换：无需语言标签即可无缝转录汉英语码转换语音。
🎵 歌曲识别：高精度转录中英文歌曲歌词，即使在伴奏与 vocals 混合的情况下也能表现出色。
🔊 嘈杂环境：在强噪声、远场拾音等不利声学条件下仍能保持鲁棒识别。
👥 多说话人：准确转录会议等重叠多 party 对话。
🇬🇧 复杂英语场景：在 Open ASR Leaderboard 上针对 AMI 等具有挑战性的英语基准测试取得领先性能。
📚 知识密集型识别：精准识别古典诗词、专业术语、人名、地名等知识密集型材料。
📝 原生标点：从韵律和语义中自然生成标点，提供无需后处理即可直接使用的转录文本。

结果

ASR 结果

有关各基准测试的具体数据及定性案例，请参阅我们的博客。

模型下载

模型	🤗 Hugging Face	🤖️ ModelScope
MiMo-Audio-Tokenizer	XiaomiMiMo/MiMo-Audio-Tokenizer	XiaomiMiMo/MiMo-Audio-Tokenizer
MiMo-V2.5-ASR	XiaomiMiMo/MiMo-V2.5-ASR	XiaomiMiMo/MiMo-V2.5-ASR

pip install huggingface-hub

hf download XiaomiMiMo/MiMo-Audio-Tokenizer --local-dir ./models/MiMo-Audio-Tokenizer
hf download XiaomiMiMo/MiMo-V2.5-ASR --local-dir ./models/MiMo-V2.5-ASR

快速开始

借助内置的 Gradio 应用，您可在几分钟内启动 MiMo-V2.5-ASR 演示。

前提条件（Linux）

Python 3.12
CUDA >= 12.0

安装

git clone https://github.com/XiaomiMiMo/MiMo-V2.5-ASR.git
cd MiMo-V2.5-ASR
pip install -r requirements.txt
pip install flash-attn==2.7.4.post1

[!Note] 如果 flash-attn 的编译耗时过长，您可以下载预编译的 wheel 包并手动安装：

下载预编译 Wheel
pip install /path/to/flash_attn-2.7.4.post1+cu12torch2.6cxx11abiFALSE-cp312-cp312-linux_x86_64.whl

运行演示

python run_mimo_asr.py

这将启动 MiMo-V2.5-ASR 的本地 Gradio 界面。您可以：

上传音频文件或直接通过麦克风录制。
可选地指定语言标签（中文/英文/自动）以让模型偏向特定语言，或保留为自动以进行自动语言检测（推荐用于语码转换语音）。
该演示在后台调用 asr_sft() 接口。

MiMo-V2.5-ASR Gradio Demo
图：MiMo-V2.5-ASR 的 Gradio 演示 — 上传音频片段或通过麦克风录制，选择语言标签，右侧即可获得转录文本。

要在启动时自动加载模型和分词器，请在命令行中传入它们的路径：

python run_mimo_asr.py \
    --model-path ./models/MiMo-V2.5-ASR \
    --tokenizer-path ./models/MiMo-Audio-Tokenizer

否则，请在 模型配置 选项卡中输入 MiMo-Audio-Tokenizer 和 MiMo-V2.5-ASR 的本地路径，然后开始转录！

Python API

使用 asr_sft 接口的基本用法：

from src.mimo_audio.mimo_audio import MimoAudio

model = MimoAudio(
    model_path="./models/MiMo-V2.5-ASR",
    tokenizer_path="./models/MiMo-Audio-Tokenizer",
)

# Automatic language detection (recommended for code-switching)
text = model.asr_sft("path/to/audio.wav")
print(text)

# With explicit language tag
text_zh = model.asr_sft("path/to/audio.wav", audio_tag="<chinese>")
text_en = model.asr_sft("path/to/audio.wav", audio_tag="<english>")

引用

@misc{coreteam2026mimov25asr,
      title={MiMo-V2.5-ASR: Robust Speech Recognition Across Languages, Dialects, and Complex Acoustic Scenarios},
      author={LLM-Core-Team Xiaomi},
      year={2026},
      url={https://github.com/XiaomiMiMo/MiMo-V2.5-ASR},
}

联系方式

如有任何问题，请通过 mimo@xiaomi.com 与我们联系，或提交 issue。

━━━━━━━━━━━━━━━━━━━━━━━━━━━ MiMo-V2.5-ASR：跨语言、方言及复杂声学场景的 鲁棒语音识别系统 ━━━━━━━━━━━━━━━━━━━━━━━━━━━

简介

摘要

结果

模型下载

快速开始

前提条件（Linux）

安装

运行演示

Python API

引用

联系方式

━━━━━━━━━━━━━━━━━━━━━━━━━━━ MiMo-V2.5-ASR：跨语言、方言及复杂声学场景的 鲁棒语音识别系统 ━━━━━━━━━━━━━━━━━━━━━━━━━━━

简介

摘要

结果

模型下载

快速开始

前提条件（Linux）

安装

运行演示

Python API

引用

联系方式

━━━━━━━━━━━━━━━━━━━━━━━━━━━
MiMo-V2.5-ASR：跨语言、方言及复杂声学场景的
鲁棒语音识别系统
━━━━━━━━━━━━━━━━━━━━━━━━━━━

━━━━━━━━━━━━━━━━━━━━━━━━━━━
MiMo-V2.5-ASR：跨语言、方言及复杂声学场景的
鲁棒语音识别系统
━━━━━━━━━━━━━━━━━━━━━━━━━━━