现有的音频语言模型通常依赖特定任务的微调来完成特定的音频任务。相比之下,人类仅需几个示例或简单指令就能泛化到新的音频任务。GPT-3表明,扩展下一个标记预测的预训练能够在文本领域实现强大的泛化能力,我们认为这种范式同样适用于音频领域。通过将MiMo-Audio的预训练数据扩展到超过一亿小时,我们观察到其在多种音频任务上展现出少样本学习能力。我们对这些能力进行了系统性评估,发现MiMo-Audio-7B-Base在开源模型中,在语音智能和音频理解基准测试上均取得了最先进的性能。除标准指标外,MiMo-Audio-7B-Base还能泛化到训练数据中未包含的任务,如语音转换、风格迁移和语音编辑。MiMo-Audio-7B-Base还展示出强大的语音续写能力,能够生成高度逼真的脱口秀、朗诵、直播和辩论内容。在后期训练阶段,我们构建了多样化的指令微调语料库,并将思维机制引入音频理解和生成中。MiMo-Audio-7B-Instruct在音频理解基准测试、口语对话基准测试和指令TTS评估中均达到了开源模型的最先进水平,接近甚至超越了闭源模型。
MiMo-Audio-Tokenizer 是一个拥有 12 亿参数、运行频率为 25 Hz 的 Transformer。它采用八层 RVQ 堆叠结构,每秒可生成 200 个 tokens。通过联合优化语义和重构目标,我们在一千万小时的语料库上从头开始训练 MiMo-Audio-Tokenizer,实现了卓越的重构质量,并为下游语言建模提供了便利。
MiMo-Audio 将 patch 编码器、LLM 和 patch 解码器相结合,以提高对高速率序列的建模效率,并弥合语音和文本之间的长度差异。patch 编码器将 RVQ tokens 的四个连续时间步聚合为单个 patch,将序列下采样为 6.25 Hz 的表示形式供 LLM 使用。patch 解码器通过延迟生成方案自回归地生成完整的 25 Hz RVQ token 序列。
| 模型 | 🤗 Hugging Face |
|---|---|
| MiMo-Audio-Tokenizer | XiaomiMiMo/MiMo-Audio-Tokenizer |
| MiMo-Audio-7B-Base | XiaomiMiMo/MiMo-Audio-7B-Base |
| MiMo-Audio-7B-Instruct | XiaomiMiMo/MiMo-Audio-7B-Instruct |
pip install huggingface-hub
hf download XiaomiMiMo/MiMo-Audio-Tokenizer --local-dir ./models/MiMo-Audio-Tokenizer
hf download XiaomiMiMo/MiMo-Audio-7B-Base --local-dir ./models/MiMo-Audio-7B-Base
hf download XiaomiMiMo/MiMo-Audio-7B-Instruct --local-dir ./models/MiMo-Audio-7B-Instruct借助内置的 Gradio 应用,您可在几分钟内启动 MiMo-Audio 演示。
git clone https://github.com/XiaomiMiMo/MiMo-Audio.git
cd MiMo-Audio
pip install -r requirements.txt
pip install flash-attn==2.7.4.post1[!Note] 如果 flash-attn 的编译耗时过长,您可以下载预编译的 wheel 包并手动安装:
pip install /path/to/flash_attn-2.7.4.post1+cu12torch2.6cxx11abiFALSE-cp312-cp312-linux_x86_64.whl
python run_mimo_audio.py这将启动一个本地 Gradio 界面,您可以在其中交互式地试用 MiMo-Audio。
输入 MiMo-Audio-Tokenizer 和 MiMo-Audio-7B-Instruct 的本地路径,即可体验 MiMo-Audio 的全部功能!
我们提供了一个示例脚本,用于探索 MiMo-Audio-7B-Base 的上下文学习能力。
详见:inference_example_pretrain.py
要试用指令微调模型 MiMo-Audio-7B-Instruct,请使用相应的推理脚本。 详见:[inference_example_sft.py`](https://github.com/XiaomiMiMo/MiMo-Audio/blob/main/inference_example_sft.py)
完整的评估套件可在 🌐MiMo-Audio-Eval 获取。
该工具包旨在评估 MiMo-Audio 以及论文中提及的其他最新音频大语言模型。它提供了一个灵活且可扩展的框架,支持多种数据集、任务和模型。
@misc{coreteam2025mimoaudio,
title={MiMo-Audio: Audio Language Models are Few-Shot Learners},
author={LLM-Core-Team Xiaomi},
year={2025},
url={GitHub - XiaomiMiMo/MiMo-Audio},
}如有任何问题,请通过mimo@xiaomi.com与我们联系,或提交issue。