Xiaomi MiMo/MiMo-Audio-Tokenizer
模型介绍文件和版本Pull Requests讨论分析
下载使用量0
Xiaomi-MiMo

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
MiMo Audio: 音频语言模型是少样本学习者
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━


| 🤗 HuggingFace  | 📄 论文  | 📰 博客  | 🔥 在线演示  | 📊 MiMo-Audio-Eval  |

简介

现有的音频语言模型通常依赖特定任务的微调来完成特定的音频任务。相比之下,人类仅通过少量示例或简单指令就能泛化到新的音频任务。GPT-3表明,扩展下一个token预测的预训练能够在文本领域实现强大的泛化能力,我们认为这种范式同样适用于音频领域。通过将MiMo-Audio的预训练数据规模扩展到超过一亿小时,我们观察到其在多种音频任务上展现出少样本学习能力。我们对这些能力进行了系统评估,发现MiMo-Audio-7B-Base在开源模型中,在语音智能和音频理解基准测试上均取得了SOTA性能。除标准指标外,MiMo-Audio-7B-Base还能泛化到训练数据中未包含的任务,如语音转换、风格迁移和语音编辑。MiMo-Audio-7B-Base还展示出强大的语音续写能力,能够生成高度逼真的脱口秀、朗诵、直播和辩论内容。在训练后阶段,我们构建了多样化的指令微调语料库,并将思维机制引入音频理解和生成中。MiMo-Audio-7B-Instruct在音频理解基准、口语对话基准和指令TTS评估中均达到开源SOTA水平,接近甚至超越闭源模型。

架构

MiMo-Audio-Tokenizer

MiMo-Audio-Tokenizer 是一个拥有 12 亿参数、运行频率为 25 Hz 的 Transformer。它采用八层 RVQ 堆叠,每秒可生成 200 个 tokens。通过联合优化语义和重建目标,我们在一千万小时的语料库上从头开始训练 MiMo-Audio-Tokenizer,实现了卓越的重建质量,并为下游语言建模提供了便利。

MiMo-Audio 将 patch 编码器、LLM 和 patch 解码器相结合,以提高对高速率序列的建模效率,并弥合语音与文本之间的长度差异。patch 编码器将 RVQ tokens 的四个连续时间步聚合为单个 patch,将序列下采样为 6.25 Hz 的表示形式,供 LLM 使用。patch 解码器通过延迟生成方案自回归地生成完整的 25 Hz RVQ token 序列。

MiMo-Audio

立即探索 MiMo-Audio!🚀🚀🚀

  • 🎧 尝试 Hugging Face 演示: MiMo-Audio Demo
  • 📰 阅读官方博客: MiMo-Audio Blog
  • 📄 深入了解技术报告: MiMo-Audio Technical Report

模型下载

模型🤗 Hugging Face
MiMo-Audio-TokenizerXiaomiMiMo/MiMo-Audio-Tokenizer
MiMo-Audio-7B-BaseXiaomiMiMo/MiMo-Audio-7B-Base
MiMo-Audio-7B-InstructXiaomiMiMo/MiMo-Audio-7B-Instruct

快速开始

借助内置的 Gradio 应用,几分钟内即可启动 MiMo-Audio 演示。

安装

git clone https://github.com/XiaomiMiMo/MiMo-Audio.git
cd MiMo-Audio
pip install -e .

运行演示

python run_mimo_audio.py

这将启动一个本地 Gradio 界面,您可以在其中交互式地试用 MiMo-Audio。

输入 MiMo-Audio-Tokenizer 和 MiMo-Audio-7B-Instruct 的本地路径,即可体验 MiMo-Audio 的全部功能!

推理脚本

基础模型

我们提供了一个示例脚本,用于探索 MiMo-Audio-7B-Base 的上下文学习能力。
详见:inference_example_pretrain.py

指令模型

要试用经过指令微调的模型 MiMo-Audio-7B-Instruct,请使用相应的推理脚本。 详见:[inference_example_sft.py`](https://github.com/XiaomiMiMo/MiMo-Audio/blob/main/inference_example_sft.py)

评估工具包

完整的评估套件可在 🌐MiMo-Audio-Eval 获取。

该工具包旨在评估 MiMo-Audio 以及论文中提及的其他近期音频大语言模型。它提供了一个灵活且可扩展的框架,支持多种数据集、任务和模型。

引用

@misc{coreteam2025mimoaudio,
      title={MiMo-Audio: Audio Language Models are Few-Shot Learners}, 
      author={LLM-Core-Team Xiaomi},
      year={2025},
      url={GitHub - XiaomiMiMo/MiMo-Audio}, 
}

联系方式

如有任何问题,请通过 mimo@xiaomi.com 与我们联系,或提交 issue。