OpenMOSS/MOSS-Audio-8B-Thinking
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

MOSS-Audio

WeChat

MOSS-Audio 是由 MOSI.AI、OpenMOSS 团队与上海人工智能实验室联合开发的开源音频理解模型。它对复杂的真实世界音频进行统一建模,支持语音理解、环境声理解、音乐理解、音频描述生成、时间感知问答以及复杂推理等任务。本次发布包含四个模型:MOSS-Audio-4B-Instruct、MOSS-Audio-4B-Thinking、MOSS-Audio-8B-Instruct 和 MOSS-Audio-8B-Thinking。其中 Instruct 版本针对直接指令遵循进行了优化,而 Thinking 版本则具备更强的思维链推理能力。

最新动态

  • 2026.4.13: 🎉🎉🎉 我们正式发布 MOSS-Audio。技术博客和论文即将推出!

目录

  • 简介
  • 模型架构
    • DeepStack 跨层特征注入
    • 时间感知表示
  • 已发布模型
  • 评估
  • 快速开始
    • 环境搭建
    • 基本使用
    • Gradio 应用
    • SGLang 服务部署
  • 更多信息
  • 引用

简介

音频理解远不止简单的语音转文字——它需要感知声学线索、识别说话人及情绪、解读环境声音、对时间上下文进行推理,以及处理复杂的多步推断。MOSS-Audio 旨在将这些能力整合到单一模型中。

  • 语音与内容理解:准确识别并转录音频输入中的语音内容,生成清晰且结构良好的文本输出。支持词级和句级时间戳对齐。
  • 说话人、情绪与事件分析:识别说话人特征,基于语气、音色和上下文分析情绪状态,并检测音频中的关键声学事件。
  • 场景与声音线索提取:从背景声音、环境噪声、音乐和非语音信号中提取有意义的线索,以推断场景上下文和氛围。
  • 音乐理解:分析音乐片段中的音乐风格、情感走向、乐器编排和显著声学特征。
  • 音频问答与摘要:针对语音、播客、会议、采访和环境录音回答问题并生成摘要,帮助用户高效提取关键信息。
  • 时间感知问答:支持时间感知问题,包括词级和句级时间戳语音识别。
  • 复杂推理:通过思维链训练和强化学习,对音频内容进行多跳推理。

模型架构

MOSS-Audio 采用模块化设计,包含三个组件:音频编码器、模态适配器和大型语言模型。原始音频首先由MOSS-Audio-Encoder编码为12.5 Hz的连续时间表示,然后通过适配器投影到语言模型的嵌入空间,最后由LLM用于自回归文本生成。

我们并非依赖现成的音频前端,而是从头开始训练专用编码器,以获得更鲁棒的语音表示、更紧密的时间对齐以及在声学领域更好的可扩展性。

DeepStack跨层特征注入

仅使用编码器的顶层特征往往会丢失底层韵律、瞬态事件和局部时频结构。为解决这一问题,我们在编码器和语言模型之间设计了一个受DeepStack启发的跨层注入模块:除编码器的最终层输出外,还会选择早期和中间层的特征,对其进行独立投影后注入语言模型的早期层,从而保留从底层声学细节到高层语义抽象的多粒度信息。

这种设计特别适用于音频理解任务,因为它有助于保留节奏、音色、瞬态和背景结构——这些信息是单一高层表示无法完全捕获的。

时间感知表示

时间是音频理解中的关键维度。为增强显式时间感知能力,我们在预训练阶段采用时间标记插入策略:以固定时间间隔在音频帧表示之间插入显式时间标记,以指示时间位置。这种设计使模型能够在统一的文本生成框架中学习“何时发生了什么”,自然支持带时间戳的语音识别(ASR)、事件定位、基于时间的问答(QA)以及长音频回溯等任务。

已发布模型

模型音频编码器LLM 骨干总规模Hugging Face
MOSS-Audio-4B-InstructMOSS-Audio-EncoderQwen3-4B~4.6BHugging Face
MOSS-Audio-4B-ThinkingMOSS-Audio-EncoderQwen3-4B~4.6BHugging Face
MOSS-Audio-8B-InstructMOSS-Audio-EncoderQwen3-8B~8.6BHugging Face
MOSS-Audio-8B-ThinkingMOSS-Audio-EncoderQwen3-8B~8.6BHugging Face

未来将发布更多模型系列、规模和变体。敬请期待!

评估

我们在一系列全面的音频理解基准上对MOSS-Audio进行了评估。主要结果如下:

  • 通用音频理解:MOSS-Audio-8B-Thinking的平均准确率达到70.80,优于所有开源模型。
  • 语音描述:MOSS-Audio-Instruct系列在13个细粒度语音描述维度中的11个维度上表现领先,其中MOSS-Audio-8B-Instruct取得了最佳的总体平均得分(3.7252)。
  • 语音识别(ASR):在涵盖12个评估维度的多样化ASR基准套件上,MOSS-Audio实现了最低的总体字符错误率(CER 11.30),尤其在健康状况、语码转换、方言、歌唱及非语音场景中表现突出。
  • 带时间戳的语音识别:MOSS-Audio-8B-Instruct在AISHELL-1上达到35.77 AAS,在LibriSpeech上达到131.61 AAS,在时间戳语音识别准确性方面显著优于Qwen3-Omni(833.66)和Gemini-3.1-Pro(708.24)。

通用音频理解(准确率↑)

模型模型大小MMAUMMAU-ProMMARMMSU平均值
开源(小型)
Kimi-Audio7B72.4156.5860.8254.7461.14
Qwen2.5-Omni7B65.6052.2056.7061.3258.96
Audio Flamingo 37B61.2351.7057.9660.0457.73
MiMo-Audio-7B7B74.9053.3561.7061.9462.97
MiniCPM-o-4.59B70.9739.6555.7560.9656.83
MOSS-Audio-4B-Instruct4B75.7958.1659.6859.6864.04
MOSS-Audio-4B-Thinking4B77.6460.7563.9171.2068.37
MOSS-Audio-8B-Instruct8B77.0357.4864.4266.3666.32
MOSS-Audio-8B-Thinking8B77.1364.2965.7376.0670.80
开源(大型)
Qwen3-Omni-30B-A3B-Instruct30B75.0061.2266.4069.0067.91
Step-Audio-R1.133B72.1860.8068.7564.1866.48
Step-Audio-R133B78.6759.6869.1575.1870.67
闭源
GPT4o-Audio-65.6652.3059.7858.7659.13
Gemini-3-Pro-80.1568.2881.7381.2877.86
Gemini-3.1-Pro-81.1073.4783.7081.3079.89

语音描述(LLM作为评判者得分↑)

语音描述(点击展开)
模型性别年龄口音音调音量语速音质清晰度流畅度情感语气个性总结平均值
Qwen3-Omni-30B-A3B-Instruct4.4363.9364.3563.5903.6823.6143.0933.5213.5313.3283.2243.2923.1793.5986
Qwen3-Omni-30B-A3B-Thinking4.4194.0264.3273.6103.5773.6103.1793.4033.5263.2323.1543.1973.1073.5667
Gemini-3-Pro4.1913.8354.1813.3923.2543.3202.9983.3473.5243.0552.9973.0232.7753.3763
Gemini-3.1-Pro4.4363.9364.3563.5903.6823.6143.0933.5213.5313.3283.2243.2923.1793.5986
MOSS-Audio-4B-Instruct4.6973.9804.4973.6283.7223.5643.4073.8413.7443.3113.2823.3053.2593.7105
MOSS-Audio-8B-Instruct4.6833.9794.5723.6823.7093.6383.4033.8693.7473.3143.2533.2723.3073.7252

语音识别(ASR)

模型总体健康状况方言歌唱非语音发声语码转换声学环境(安静)声学环境(嘈杂)声学特征:耳语声学特征:远场/近场多说话人年龄语义内容
Paraformer-Large15.7722.1843.4532.344.9512.653.114.675.0217.4620.3314.967.14
GLM-ASR-Nano17.2924.4922.3951.954.6511.883.685.024.9427.5128.0217.197.32
Fun-ASR-Nano12.0421.997.8019.354.7611.232.983.463.7818.3819.8214.956.08
SenseVoice-Small14.5024.048.8923.794.9213.904.134.935.5726.6624.0617.637.55
Kimi-Audio-7B-Instruct14.1221.1129.3421.764.6816.382.202.152.6621.0220.6116.746.12
Qwen2.5-Omni-3B15.2624.6533.8724.245.5411.662.763.564.3222.1522.9115.177.24
Qwen2.5-Omni-7B15.0523.8531.9122.694.5612.972.523.163.6425.3821.0116.136.78
Qwen3-Omni-30B-A3B-Instruct11.3920.7315.6316.014.7311.302.232.471.9017.0818.1511.465.74
MOSS-Audio-4B-Instruct11.5821.1111.8410.794.0110.113.113.723.2918.4820.3315.098.15
MOSS-Audio-8B-Instruct11.3019.188.769.814.3110.182.703.202.7524.0424.3615.267.69
详细语音识别结果(点击展开)
模型声学环境(安静)声学环境(嘈杂)声学特征:耳语声学特征:远场/近场多说话人年龄健康状况语义内容语码转换方言歌唱非语音发声
AISHELL-1
测试集
AISHELL-2
安卓 | IOS | 麦克风
THCHS-30
测试集
MAGICDATA-READ
测试集
AISHELL6-Whisper
正常 | 耳语
AliMeeting
Test_Ali_far | Test_Ali_near
AISHELL-4
测试集
SeniorTalk
句子
ChildMandarin
测试集
AISHELL-6A
轻度 | 中度 | 重度 | 口吃语音
AISHELL_6B
LRDWWS | 不受控
WenetSpeech
test-meeting
Fleurs
cmn_hans_cn
CS-Dialogue
测试集
TALCS
测试集
ASCEND
测试集
KeSpeech
测试集
WSYue-ASR-eval
短句
MIR-1K
测试集
openc-pop
测试集
MNV_17
Paraformer-Large1.983.28 | 3.21 | 3.004.074.671.11 | 8.9225.64 | 9.2720.3317.3112.606.98 | 9.30 | 13.34 | 10.7447.59 | 45.087.886.4010.6410.7716.5511.4875.4257.706.984.95
GLM-ASR-Nano2.893.75 | 3.73 | 3.784.235.020.83 | 9.0640.27 | 14.7628.0220.3314.068.74 | 12.11 | 14.38 | 12.2950.34 | 49.099.704.9411.0611.0713.509.7235.0795.878.034.65
Fun-ASR-Nano2.163.04 | 2.99 | 3.073.653.460.81 | 6.7627.21 | 9.5519.8216.9612.946.60 | 8.81 | 12.98 | 10.3047.42 | 45.847.394.7610.478.0915.137.438.1735.852.844.76
SenseVoice-Small3.234.16 | 4.02 | 3.965.264.931.25 | 9.8837.01 | 16.3124.0621.0714.187.62 | 9.85 | 14.39 | 11.4752.92 | 47.978.356.7512.8110.5218.3810.457.3439.518.074.92
Kimi-Audio-7B-Instruct0.792.91 | 3.03 | 2.881.392.150.69 | 4.6328.22 | 13.8220.6119.7013.797.00 | 9.34 | 12.56 | 10.7544.44 | 42.577.155.1014.5612.7421.835.5153.1738.355.174.68
Qwen2.5-Omni-3B1.513.10 | 2.94 | 2.933.323.560.82 | 7.8232.14 | 12.1622.9117.3812.966.87 | 10.55 | 14.57 | 11.3354.54 | 50.039.045.4510.7810.9413.257.6760.0645.003.475.54
Qwen2.5-Omni-7B1.162.88 | 2.77 | 2.733.063.160.71 | 6.5732.03 | 18.7321.0119.9612.297.27 | 10.94 | 12.92 | 10.5351.99 | 49.458.435.1314.0210.4614.426.4057.4342.622.754.56
Qwen3-Omni-30B-A3B-Instruct0.952.70 | 2.72 | 2.572.212.470.59 | 3.2225.72 | 8.4418.1514.138.796.20 | 8.88 | 11.59 | 10.2545.80 | 41.656.644.8412.948.3312.645.8725.3930.811.214.73
MOSS-Audio-4B-Instruct2.263.22 | 3.20 | 3.333.533.720.73 | 5.8627.27 | 9.6820.3316.9313.256.36 | 9.77 | 12.68 | 10.2843.35 | 44.258.178.139.148.3712.8314.659.0418.473.104.01
MOSS-Audio-8B-Instruct1.822.97 | 2.95 | 2.912.823.200.69 | 4.8036.82 | 11.2524.3617.4213.105.84 | 8.94 | 11.52 | 9.7239.76 | 39.277.867.529.078.2213.269.188.3317.242.394.31

时间戳语音识别(AAS↓)

模型AISHELL-1(中文)LibriSpeech(英文)
Qwen3-Omni-30B-A3B-Instruct833.66646.95
Gemini-3.1-Pro708.24871.19
MOSS-Audio-4B-Instruct76.96358.13
MOSS-Audio-8B-Instruct35.77131.61

快速开始

环境设置

我们建议使用 Python 3.12 并搭配干净的 Conda 环境。以下命令足以支持本地推理。

推荐设置

git clone https://github.com/OpenMOSS/MOSS-Audio.git
cd MOSS-Audio

conda create -n moss-audio python=3.12 -y
conda activate moss-audio

conda install -c conda-forge "ffmpeg=7" -y
pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-runtime]"

可选:FlashAttention 2

如果您的 GPU 支持 FlashAttention 2,可以将最后的安装命令替换为:

pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-runtime,flash-attn]"

基本使用方法

请先下载模型:

huggingface-cli download OpenMOSS-Team/MOSS-Audio --local-dir ./weights/MOSS-Audio
huggingface-cli download OpenMOSS-Team/MOSS-Audio-Instruct --local-dir ./weights/MOSS-Audio-Instruct

然后根据需要在 infer.py 中编辑 MODEL_PATH / AUDIO_PATH,并运行:

python infer.py

infer.py中的默认提示词为Describe this audio.。如果您想尝试转录、音频问答或语音字幕生成,可以直接编辑该行。

Gradio 应用

通过以下命令启动 Gradio 演示:

python app.py

SGLang 服务部署

若需使用 SGLang 部署 MOSS-Audio,请参考 moss_audio_usage_guide.md 中的完整指南。

最简配置步骤如下:

git clone -b moss-audio https://github.com/OpenMOSS/sglang.git
cd sglang
pip install -e "python[all]"
pip install nvidia-cudnn-cu12==9.16.0.29
cd ..
sglang serve --model-path ./weights/MOSS-Audio --trust-remote-code

如果您使用默认的 torch==2.9.1+cu128 运行环境,建议在启动 sglang serve 之前安装 nvidia-cudnn-cu12==9.16.0.29。

更多信息

  • MOSI.AI:https://mosi.cn
  • OpenMOSS:https://www.open-moss.com

许可证

MOSS-Audio 中的模型采用 Apache License 2.0 许可证。

引用

@misc{mossaudio2026,
      title={MOSS-Audio Technical Report},
      author={OpenMOSS Team},
      year={2026},
      howpublished={\url{https://github.com/OpenMOSS/MOSS-Audio}},
      note={GitHub repository}
}