MOSS-Audio

MOSS-Audio 是由 MOSI.AI、OpenMOSS 团队与上海人工智能实验室联合开发的开源音频理解模型。它对复杂的真实世界音频进行统一建模，支持语音理解、环境声理解、音乐理解、音频描述生成、时间感知问答以及复杂推理等任务。本次发布包含四个模型：MOSS-Audio-4B-Instruct、MOSS-Audio-4B-Thinking、MOSS-Audio-8B-Instruct 和 MOSS-Audio-8B-Thinking。其中 Instruct 版本针对直接指令遵循进行了优化，而 Thinking 版本则具备更强的思维链推理能力。

简介

音频理解远不止简单的语音转文字——它需要感知声学线索、识别说话人及情绪、解读环境声音、对时间上下文进行推理，以及处理复杂的多步推断。MOSS-Audio 旨在将这些能力整合到单一模型中。

语音与内容理解：准确识别并转录音频输入中的语音内容，生成清晰且结构良好的文本输出。支持词级和句级时间戳对齐。
说话人、情绪与事件分析：识别说话人特征，基于语气、音色和上下文分析情绪状态，并检测音频中的关键声学事件。
场景与声音线索提取：从背景声音、环境噪声、音乐和非语音信号中提取有意义的线索，以推断场景上下文和氛围。
音乐理解：分析音乐片段中的音乐风格、情感走向、乐器编排和显著声学特征。
音频问答与摘要：针对语音、播客、会议、采访和环境录音回答问题并生成摘要，帮助用户高效提取关键信息。
时间感知问答：支持时间感知问题，包括词级和句级时间戳语音识别。
复杂推理：通过思维链训练和强化学习，对音频内容进行多跳推理。

模型架构

MOSS-Audio 采用模块化设计，包含三个组件：音频编码器、模态适配器和大型语言模型。原始音频首先由MOSS-Audio-Encoder编码为12.5 Hz的连续时间表示，然后通过适配器投影到语言模型的嵌入空间，最后由LLM用于自回归文本生成。

我们并非依赖现成的音频前端，而是从头开始训练专用编码器，以获得更鲁棒的语音表示、更紧密的时间对齐以及在声学领域更好的可扩展性。

DeepStack跨层特征注入

仅使用编码器的顶层特征往往会丢失底层韵律、瞬态事件和局部时频结构。为解决这一问题，我们在编码器和语言模型之间设计了一个受DeepStack启发的跨层注入模块：除编码器的最终层输出外，还会选择早期和中间层的特征，对其进行独立投影后注入语言模型的早期层，从而保留从底层声学细节到高层语义抽象的多粒度信息。

这种设计特别适用于音频理解任务，因为它有助于保留节奏、音色、瞬态和背景结构——这些信息是单一高层表示无法完全捕获的。

时间感知表示

时间是音频理解中的关键维度。为增强显式时间感知能力，我们在预训练阶段采用时间标记插入策略：以固定时间间隔在音频帧表示之间插入显式时间标记，以指示时间位置。这种设计使模型能够在统一的文本生成框架中学习“何时发生了什么”，自然支持带时间戳的语音识别（ASR）、事件定位、基于时间的问答（QA）以及长音频回溯等任务。

已发布模型

模型	音频编码器	LLM 骨干	总规模
MOSS-Audio-4B-Instruct	MOSS-Audio-Encoder	Qwen3-4B	~4.6B
MOSS-Audio-4B-Thinking	MOSS-Audio-Encoder	Qwen3-4B	~4.6B
MOSS-Audio-8B-Instruct	MOSS-Audio-Encoder	Qwen3-8B	~8.6B
MOSS-Audio-8B-Thinking	MOSS-Audio-Encoder	Qwen3-8B	~8.6B

未来将发布更多模型系列、规模和变体。敬请期待！

评估

我们在一系列全面的音频理解基准上对MOSS-Audio进行了评估。主要结果如下：

通用音频理解：MOSS-Audio-8B-Thinking的平均准确率达到70.80，优于所有开源模型。
语音描述：MOSS-Audio-Instruct系列在13个细粒度语音描述维度中的11个维度上表现领先，其中MOSS-Audio-8B-Instruct取得了最佳的总体平均得分（3.7252）。
语音识别（ASR）：在涵盖12个评估维度的多样化ASR基准套件上，MOSS-Audio实现了最低的总体字符错误率（CER 11.30），尤其在健康状况、语码转换、方言、歌唱及非语音场景中表现突出。
带时间戳的语音识别：MOSS-Audio-8B-Instruct在AISHELL-1上达到35.77 AAS，在LibriSpeech上达到131.61 AAS，在时间戳语音识别准确性方面显著优于Qwen3-Omni（833.66）和Gemini-3.1-Pro（708.24）。

通用音频理解（准确率↑）

模型	模型大小	MMAU	MMAU-Pro	MMAR	MMSU	平均值
开源（小型）
Kimi-Audio	7B	72.41	56.58	60.82	54.74	61.14
Qwen2.5-Omni	7B	65.60	52.20	56.70	61.32	58.96
Audio Flamingo 3	7B	61.23	51.70	57.96	60.04	57.73
MiMo-Audio-7B	7B	74.90	53.35	61.70	61.94	62.97
MiniCPM-o-4.5	9B	70.97	39.65	55.75	60.96	56.83
MOSS-Audio-4B-Instruct	4B	75.79	58.16	59.68	59.68	64.04
MOSS-Audio-4B-Thinking	4B	77.64	60.75	63.91	71.20	68.37
MOSS-Audio-8B-Instruct	8B	77.03	57.48	64.42	66.36	66.32
MOSS-Audio-8B-Thinking	8B	77.13	64.29	65.73	76.06	70.80
开源（大型）
Qwen3-Omni-30B-A3B-Instruct	30B	75.00	61.22	66.40	69.00	67.91
Step-Audio-R1.1	33B	72.18	60.80	68.75	64.18	66.48
Step-Audio-R1	33B	78.67	59.68	69.15	75.18	70.67
闭源
GPT4o-Audio	-	65.66	52.30	59.78	58.76	59.13
Gemini-3-Pro	-	80.15	68.28	81.73	81.28	77.86
Gemini-3.1-Pro	-	81.10	73.47	83.70	81.30	79.89

语音描述（LLM作为评判者得分↑）

语音描述（点击展开）

模型	性别	年龄	口音	音调	音量	语速	音质	清晰度	流畅度	情感	语气	个性	总结	平均值
Qwen3-Omni-30B-A3B-Instruct	4.436	3.936	4.356	3.590	3.682	3.614	3.093	3.521	3.531	3.328	3.224	3.292	3.179	3.5986
Qwen3-Omni-30B-A3B-Thinking	4.419	4.026	4.327	3.610	3.577	3.610	3.179	3.403	3.526	3.232	3.154	3.197	3.107	3.5667
Gemini-3-Pro	4.191	3.835	4.181	3.392	3.254	3.320	2.998	3.347	3.524	3.055	2.997	3.023	2.775	3.3763
Gemini-3.1-Pro	4.436	3.936	4.356	3.590	3.682	3.614	3.093	3.521	3.531	3.328	3.224	3.292	3.179	3.5986
MOSS-Audio-4B-Instruct	4.697	3.980	4.497	3.628	3.722	3.564	3.407	3.841	3.744	3.311	3.282	3.305	3.259	3.7105
MOSS-Audio-8B-Instruct	4.683	3.979	4.572	3.682	3.709	3.638	3.403	3.869	3.747	3.314	3.253	3.272	3.307	3.7252

语音识别（ASR）

模型	总体	健康状况	方言	歌唱	非语音发声	语码转换	声学环境（安静）	声学环境（嘈杂）	声学特征：耳语	声学特征：远场/近场	多说话人	年龄	语义内容
Paraformer-Large	15.77	22.18	43.45	32.34	4.95	12.65	3.11	4.67	5.02	17.46	20.33	14.96	7.14
GLM-ASR-Nano	17.29	24.49	22.39	51.95	4.65	11.88	3.68	5.02	4.94	27.51	28.02	17.19	7.32
Fun-ASR-Nano	12.04	21.99	7.80	19.35	4.76	11.23	2.98	3.46	3.78	18.38	19.82	14.95	6.08
SenseVoice-Small	14.50	24.04	8.89	23.79	4.92	13.90	4.13	4.93	5.57	26.66	24.06	17.63	7.55
Kimi-Audio-7B-Instruct	14.12	21.11	29.34	21.76	4.68	16.38	2.20	2.15	2.66	21.02	20.61	16.74	6.12
Qwen2.5-Omni-3B	15.26	24.65	33.87	24.24	5.54	11.66	2.76	3.56	4.32	22.15	22.91	15.17	7.24
Qwen2.5-Omni-7B	15.05	23.85	31.91	22.69	4.56	12.97	2.52	3.16	3.64	25.38	21.01	16.13	6.78
Qwen3-Omni-30B-A3B-Instruct	11.39	20.73	15.63	16.01	4.73	11.30	2.23	2.47	1.90	17.08	18.15	11.46	5.74
MOSS-Audio-4B-Instruct	11.58	21.11	11.84	10.79	4.01	10.11	3.11	3.72	3.29	18.48	20.33	15.09	8.15
MOSS-Audio-8B-Instruct	11.30	19.18	8.76	9.81	4.31	10.18	2.70	3.20	2.75	24.04	24.36	15.26	7.69

详细语音识别结果（点击展开）

模型	声学环境（安静）			声学环境（嘈杂）	声学特征：耳语	声学特征：远场/近场	多说话人	年龄		健康状况		语义内容		语码转换			方言		歌唱		非语音发声
模型	AISHELL-1 测试集	AISHELL-2 安卓 \| IOS \| 麦克风	THCHS-30 测试集	MAGICDATA-READ 测试集	AISHELL6-Whisper 正常 \| 耳语	AliMeeting Test_Ali_far \| Test_Ali_near	AISHELL-4 测试集	SeniorTalk 句子	ChildMandarin 测试集	AISHELL-6A 轻度 \| 中度 \| 重度 \| 口吃语音	AISHELL_6B LRDWWS \| 不受控	WenetSpeech test-meeting	Fleurs cmn_hans_cn	CS-Dialogue 测试集	TALCS 测试集	ASCEND 测试集	KeSpeech 测试集	WSYue-ASR-eval 短句	MIR-1K 测试集	openc-pop 测试集	MNV_17
Paraformer-Large	1.98	3.28 \| 3.21 \| 3.00	4.07	4.67	1.11 \| 8.92	25.64 \| 9.27	20.33	17.31	12.60	6.98 \| 9.30 \| 13.34 \| 10.74	47.59 \| 45.08	7.88	6.40	10.64	10.77	16.55	11.48	75.42	57.70	6.98	4.95
GLM-ASR-Nano	2.89	3.75 \| 3.73 \| 3.78	4.23	5.02	0.83 \| 9.06	40.27 \| 14.76	28.02	20.33	14.06	8.74 \| 12.11 \| 14.38 \| 12.29	50.34 \| 49.09	9.70	4.94	11.06	11.07	13.50	9.72	35.07	95.87	8.03	4.65
Fun-ASR-Nano	2.16	3.04 \| 2.99 \| 3.07	3.65	3.46	0.81 \| 6.76	27.21 \| 9.55	19.82	16.96	12.94	6.60 \| 8.81 \| 12.98 \| 10.30	47.42 \| 45.84	7.39	4.76	10.47	8.09	15.13	7.43	8.17	35.85	2.84	4.76
SenseVoice-Small	3.23	4.16 \| 4.02 \| 3.96	5.26	4.93	1.25 \| 9.88	37.01 \| 16.31	24.06	21.07	14.18	7.62 \| 9.85 \| 14.39 \| 11.47	52.92 \| 47.97	8.35	6.75	12.81	10.52	18.38	10.45	7.34	39.51	8.07	4.92
Kimi-Audio-7B-Instruct	0.79	2.91 \| 3.03 \| 2.88	1.39	2.15	0.69 \| 4.63	28.22 \| 13.82	20.61	19.70	13.79	7.00 \| 9.34 \| 12.56 \| 10.75	44.44 \| 42.57	7.15	5.10	14.56	12.74	21.83	5.51	53.17	38.35	5.17	4.68
Qwen2.5-Omni-3B	1.51	3.10 \| 2.94 \| 2.93	3.32	3.56	0.82 \| 7.82	32.14 \| 12.16	22.91	17.38	12.96	6.87 \| 10.55 \| 14.57 \| 11.33	54.54 \| 50.03	9.04	5.45	10.78	10.94	13.25	7.67	60.06	45.00	3.47	5.54
Qwen2.5-Omni-7B	1.16	2.88 \| 2.77 \| 2.73	3.06	3.16	0.71 \| 6.57	32.03 \| 18.73	21.01	19.96	12.29	7.27 \| 10.94 \| 12.92 \| 10.53	51.99 \| 49.45	8.43	5.13	14.02	10.46	14.42	6.40	57.43	42.62	2.75	4.56
Qwen3-Omni-30B-A3B-Instruct	0.95	2.70 \| 2.72 \| 2.57	2.21	2.47	0.59 \| 3.22	25.72 \| 8.44	18.15	14.13	8.79	6.20 \| 8.88 \| 11.59 \| 10.25	45.80 \| 41.65	6.64	4.84	12.94	8.33	12.64	5.87	25.39	30.81	1.21	4.73
MOSS-Audio-4B-Instruct	2.26	3.22 \| 3.20 \| 3.33	3.53	3.72	0.73 \| 5.86	27.27 \| 9.68	20.33	16.93	13.25	6.36 \| 9.77 \| 12.68 \| 10.28	43.35 \| 44.25	8.17	8.13	9.14	8.37	12.83	14.65	9.04	18.47	3.10	4.01
MOSS-Audio-8B-Instruct	1.82	2.97 \| 2.95 \| 2.91	2.82	3.20	0.69 \| 4.80	36.82 \| 11.25	24.36	17.42	13.10	5.84 \| 8.94 \| 11.52 \| 9.72	39.76 \| 39.27	7.86	7.52	9.07	8.22	13.26	9.18	8.33	17.24	2.39	4.31

时间戳语音识别（AAS↓）

模型	AISHELL-1(中文)	LibriSpeech(英文)
Qwen3-Omni-30B-A3B-Instruct	833.66	646.95
Gemini-3.1-Pro	708.24	871.19
MOSS-Audio-4B-Instruct	76.96	358.13
MOSS-Audio-8B-Instruct	35.77	131.61

快速开始

环境设置

我们建议使用 Python 3.12 并搭配干净的 Conda 环境。以下命令足以支持本地推理。

可选：FlashAttention 2

如果您的 GPU 支持 FlashAttention 2，可以将最后的安装命令替换为：

pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-runtime,flash-attn]"

基本使用方法

请先下载模型：

huggingface-cli download OpenMOSS-Team/MOSS-Audio --local-dir ./weights/MOSS-Audio
huggingface-cli download OpenMOSS-Team/MOSS-Audio-Instruct --local-dir ./weights/MOSS-Audio-Instruct

然后根据需要在 infer.py 中编辑 MODEL_PATH / AUDIO_PATH，并运行：

python infer.py

infer.py中的默认提示词为Describe this audio.。如果您想尝试转录、音频问答或语音字幕生成，可以直接编辑该行。

Gradio 应用

通过以下命令启动 Gradio 演示：

python app.py

SGLang 服务部署

若需使用 SGLang 部署 MOSS-Audio，请参考 moss_audio_usage_guide.md 中的完整指南。

最简配置步骤如下：

git clone -b moss-audio https://github.com/OpenMOSS/sglang.git
cd sglang
pip install -e "python[all]"
pip install nvidia-cudnn-cu12==9.16.0.29
cd ..
sglang serve --model-path ./weights/MOSS-Audio --trust-remote-code

如果您使用默认的 torch==2.9.1+cu128 运行环境，建议在启动 sglang serve 之前安装 nvidia-cudnn-cu12==9.16.0.29。

许可证

MOSS-Audio 中的模型采用 Apache License 2.0 许可证。

引用

@misc{mossaudio2026,
      title={MOSS-Audio Technical Report},
      author={OpenMOSS Team},
      year={2026},
      howpublished={\url{https://github.com/OpenMOSS/MOSS-Audio}},
      note={GitHub repository}
}

MOSS-Audio

简介

语音与内容理解：准确识别并转录音频输入中的语音内容，生成清晰且结构良好的文本输出。支持词级和句级时间戳对齐。
说话人、情绪与事件分析：识别说话人特征，基于语气、音色和上下文分析情绪状态，并检测音频中的关键声学事件。
场景与声音线索提取：从背景声音、环境噪声、音乐和非语音信号中提取有意义的线索，以推断场景上下文和氛围。
音乐理解：分析音乐片段中的音乐风格、情感走向、乐器编排和显著声学特征。
音频问答与摘要：针对语音、播客、会议、采访和环境录音回答问题并生成摘要，帮助用户高效提取关键信息。
时间感知问答：支持时间感知问题，包括词级和句级时间戳语音识别。
复杂推理：通过思维链训练和强化学习，对音频内容进行多跳推理。

模型架构

我们并非依赖现成的音频前端，而是从头开始训练专用编码器，以获得更鲁棒的语音表示、更紧密的时间对齐以及在声学领域更好的可扩展性。

DeepStack跨层特征注入

这种设计特别适用于音频理解任务，因为它有助于保留节奏、音色、瞬态和背景结构——这些信息是单一高层表示无法完全捕获的。

时间感知表示

已发布模型

模型	音频编码器	LLM 骨干	总规模
MOSS-Audio-4B-Instruct	MOSS-Audio-Encoder	Qwen3-4B	~4.6B
MOSS-Audio-4B-Thinking	MOSS-Audio-Encoder	Qwen3-4B	~4.6B
MOSS-Audio-8B-Instruct	MOSS-Audio-Encoder	Qwen3-8B	~8.6B
MOSS-Audio-8B-Thinking	MOSS-Audio-Encoder	Qwen3-8B	~8.6B

未来将发布更多模型系列、规模和变体。敬请期待！

评估

我们在一系列全面的音频理解基准上对MOSS-Audio进行了评估。主要结果如下：

通用音频理解：MOSS-Audio-8B-Thinking的平均准确率达到70.80，优于所有开源模型。
语音描述：MOSS-Audio-Instruct系列在13个细粒度语音描述维度中的11个维度上表现领先，其中MOSS-Audio-8B-Instruct取得了最佳的总体平均得分（3.7252）。
语音识别（ASR）：在涵盖12个评估维度的多样化ASR基准套件上，MOSS-Audio实现了最低的总体字符错误率（CER 11.30），尤其在健康状况、语码转换、方言、歌唱及非语音场景中表现突出。
带时间戳的语音识别：MOSS-Audio-8B-Instruct在AISHELL-1上达到35.77 AAS，在LibriSpeech上达到131.61 AAS，在时间戳语音识别准确性方面显著优于Qwen3-Omni（833.66）和Gemini-3.1-Pro（708.24）。

通用音频理解（准确率↑）

模型	模型大小	MMAU	MMAU-Pro	MMAR	MMSU	平均值
开源（小型）
Kimi-Audio	7B	72.41	56.58	60.82	54.74	61.14
Qwen2.5-Omni	7B	65.60	52.20	56.70	61.32	58.96
Audio Flamingo 3	7B	61.23	51.70	57.96	60.04	57.73
MiMo-Audio-7B	7B	74.90	53.35	61.70	61.94	62.97
MiniCPM-o-4.5	9B	70.97	39.65	55.75	60.96	56.83
MOSS-Audio-4B-Instruct	4B	75.79	58.16	59.68	59.68	64.04
MOSS-Audio-4B-Thinking	4B	77.64	60.75	63.91	71.20	68.37
MOSS-Audio-8B-Instruct	8B	77.03	57.48	64.42	66.36	66.32
MOSS-Audio-8B-Thinking	8B	77.13	64.29	65.73	76.06	70.80
开源（大型）
Qwen3-Omni-30B-A3B-Instruct	30B	75.00	61.22	66.40	69.00	67.91
Step-Audio-R1.1	33B	72.18	60.80	68.75	64.18	66.48
Step-Audio-R1	33B	78.67	59.68	69.15	75.18	70.67
闭源
GPT4o-Audio	-	65.66	52.30	59.78	58.76	59.13
Gemini-3-Pro	-	80.15	68.28	81.73	81.28	77.86
Gemini-3.1-Pro	-	81.10	73.47	83.70	81.30	79.89

语音描述（LLM作为评判者得分↑）

语音描述（点击展开）

模型	性别	年龄	口音	音调	音量	语速	音质	清晰度	流畅度	情感	语气	个性	总结	平均值
Qwen3-Omni-30B-A3B-Instruct	4.436	3.936	4.356	3.590	3.682	3.614	3.093	3.521	3.531	3.328	3.224	3.292	3.179	3.5986
Qwen3-Omni-30B-A3B-Thinking	4.419	4.026	4.327	3.610	3.577	3.610	3.179	3.403	3.526	3.232	3.154	3.197	3.107	3.5667
Gemini-3-Pro	4.191	3.835	4.181	3.392	3.254	3.320	2.998	3.347	3.524	3.055	2.997	3.023	2.775	3.3763
Gemini-3.1-Pro	4.436	3.936	4.356	3.590	3.682	3.614	3.093	3.521	3.531	3.328	3.224	3.292	3.179	3.5986
MOSS-Audio-4B-Instruct	4.697	3.980	4.497	3.628	3.722	3.564	3.407	3.841	3.744	3.311	3.282	3.305	3.259	3.7105
MOSS-Audio-8B-Instruct	4.683	3.979	4.572	3.682	3.709	3.638	3.403	3.869	3.747	3.314	3.253	3.272	3.307	3.7252

语音识别（ASR）

模型	总体	健康状况	方言	歌唱	非语音发声	语码转换	声学环境（安静）	声学环境（嘈杂）	声学特征：耳语	声学特征：远场/近场	多说话人	年龄	语义内容
Paraformer-Large	15.77	22.18	43.45	32.34	4.95	12.65	3.11	4.67	5.02	17.46	20.33	14.96	7.14
GLM-ASR-Nano	17.29	24.49	22.39	51.95	4.65	11.88	3.68	5.02	4.94	27.51	28.02	17.19	7.32
Fun-ASR-Nano	12.04	21.99	7.80	19.35	4.76	11.23	2.98	3.46	3.78	18.38	19.82	14.95	6.08
SenseVoice-Small	14.50	24.04	8.89	23.79	4.92	13.90	4.13	4.93	5.57	26.66	24.06	17.63	7.55
Kimi-Audio-7B-Instruct	14.12	21.11	29.34	21.76	4.68	16.38	2.20	2.15	2.66	21.02	20.61	16.74	6.12
Qwen2.5-Omni-3B	15.26	24.65	33.87	24.24	5.54	11.66	2.76	3.56	4.32	22.15	22.91	15.17	7.24
Qwen2.5-Omni-7B	15.05	23.85	31.91	22.69	4.56	12.97	2.52	3.16	3.64	25.38	21.01	16.13	6.78
Qwen3-Omni-30B-A3B-Instruct	11.39	20.73	15.63	16.01	4.73	11.30	2.23	2.47	1.90	17.08	18.15	11.46	5.74
MOSS-Audio-4B-Instruct	11.58	21.11	11.84	10.79	4.01	10.11	3.11	3.72	3.29	18.48	20.33	15.09	8.15
MOSS-Audio-8B-Instruct	11.30	19.18	8.76	9.81	4.31	10.18	2.70	3.20	2.75	24.04	24.36	15.26	7.69

详细语音识别结果（点击展开）

模型	声学环境（安静）			声学环境（嘈杂）	声学特征：耳语	声学特征：远场/近场	多说话人	年龄		健康状况		语义内容		语码转换			方言		歌唱		非语音发声
模型	AISHELL-1 测试集	AISHELL-2 安卓 \| IOS \| 麦克风	THCHS-30 测试集	MAGICDATA-READ 测试集	AISHELL6-Whisper 正常 \| 耳语	AliMeeting Test_Ali_far \| Test_Ali_near	AISHELL-4 测试集	SeniorTalk 句子	ChildMandarin 测试集	AISHELL-6A 轻度 \| 中度 \| 重度 \| 口吃语音	AISHELL_6B LRDWWS \| 不受控	WenetSpeech test-meeting	Fleurs cmn_hans_cn	CS-Dialogue 测试集	TALCS 测试集	ASCEND 测试集	KeSpeech 测试集	WSYue-ASR-eval 短句	MIR-1K 测试集	openc-pop 测试集	MNV_17
Paraformer-Large	1.98	3.28 \| 3.21 \| 3.00	4.07	4.67	1.11 \| 8.92	25.64 \| 9.27	20.33	17.31	12.60	6.98 \| 9.30 \| 13.34 \| 10.74	47.59 \| 45.08	7.88	6.40	10.64	10.77	16.55	11.48	75.42	57.70	6.98	4.95
GLM-ASR-Nano	2.89	3.75 \| 3.73 \| 3.78	4.23	5.02	0.83 \| 9.06	40.27 \| 14.76	28.02	20.33	14.06	8.74 \| 12.11 \| 14.38 \| 12.29	50.34 \| 49.09	9.70	4.94	11.06	11.07	13.50	9.72	35.07	95.87	8.03	4.65
Fun-ASR-Nano	2.16	3.04 \| 2.99 \| 3.07	3.65	3.46	0.81 \| 6.76	27.21 \| 9.55	19.82	16.96	12.94	6.60 \| 8.81 \| 12.98 \| 10.30	47.42 \| 45.84	7.39	4.76	10.47	8.09	15.13	7.43	8.17	35.85	2.84	4.76
SenseVoice-Small	3.23	4.16 \| 4.02 \| 3.96	5.26	4.93	1.25 \| 9.88	37.01 \| 16.31	24.06	21.07	14.18	7.62 \| 9.85 \| 14.39 \| 11.47	52.92 \| 47.97	8.35	6.75	12.81	10.52	18.38	10.45	7.34	39.51	8.07	4.92
Kimi-Audio-7B-Instruct	0.79	2.91 \| 3.03 \| 2.88	1.39	2.15	0.69 \| 4.63	28.22 \| 13.82	20.61	19.70	13.79	7.00 \| 9.34 \| 12.56 \| 10.75	44.44 \| 42.57	7.15	5.10	14.56	12.74	21.83	5.51	53.17	38.35	5.17	4.68
Qwen2.5-Omni-3B	1.51	3.10 \| 2.94 \| 2.93	3.32	3.56	0.82 \| 7.82	32.14 \| 12.16	22.91	17.38	12.96	6.87 \| 10.55 \| 14.57 \| 11.33	54.54 \| 50.03	9.04	5.45	10.78	10.94	13.25	7.67	60.06	45.00	3.47	5.54
Qwen2.5-Omni-7B	1.16	2.88 \| 2.77 \| 2.73	3.06	3.16	0.71 \| 6.57	32.03 \| 18.73	21.01	19.96	12.29	7.27 \| 10.94 \| 12.92 \| 10.53	51.99 \| 49.45	8.43	5.13	14.02	10.46	14.42	6.40	57.43	42.62	2.75	4.56
Qwen3-Omni-30B-A3B-Instruct	0.95	2.70 \| 2.72 \| 2.57	2.21	2.47	0.59 \| 3.22	25.72 \| 8.44	18.15	14.13	8.79	6.20 \| 8.88 \| 11.59 \| 10.25	45.80 \| 41.65	6.64	4.84	12.94	8.33	12.64	5.87	25.39	30.81	1.21	4.73
MOSS-Audio-4B-Instruct	2.26	3.22 \| 3.20 \| 3.33	3.53	3.72	0.73 \| 5.86	27.27 \| 9.68	20.33	16.93	13.25	6.36 \| 9.77 \| 12.68 \| 10.28	43.35 \| 44.25	8.17	8.13	9.14	8.37	12.83	14.65	9.04	18.47	3.10	4.01
MOSS-Audio-8B-Instruct	1.82	2.97 \| 2.95 \| 2.91	2.82	3.20	0.69 \| 4.80	36.82 \| 11.25	24.36	17.42	13.10	5.84 \| 8.94 \| 11.52 \| 9.72	39.76 \| 39.27	7.86	7.52	9.07	8.22	13.26	9.18	8.33	17.24	2.39	4.31

时间戳语音识别（AAS↓）

模型	AISHELL-1(中文)	LibriSpeech(英文)
Qwen3-Omni-30B-A3B-Instruct	833.66	646.95
Gemini-3.1-Pro	708.24	871.19
MOSS-Audio-4B-Instruct	76.96	358.13
MOSS-Audio-8B-Instruct	35.77	131.61

快速开始

环境设置

我们建议使用 Python 3.12 并搭配干净的 Conda 环境。以下命令足以支持本地推理。

可选：FlashAttention 2

如果您的 GPU 支持 FlashAttention 2，可以将最后的安装命令替换为：

pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-runtime,flash-attn]"

基本使用方法

请先下载模型：

huggingface-cli download OpenMOSS-Team/MOSS-Audio --local-dir ./weights/MOSS-Audio
huggingface-cli download OpenMOSS-Team/MOSS-Audio-Instruct --local-dir ./weights/MOSS-Audio-Instruct

然后根据需要在 infer.py 中编辑 MODEL_PATH / AUDIO_PATH，并运行：

python infer.py

infer.py中的默认提示词为Describe this audio.。如果您想尝试转录、音频问答或语音字幕生成，可以直接编辑该行。

Gradio 应用

通过以下命令启动 Gradio 演示：

python app.py

SGLang 服务部署

若需使用 SGLang 部署 MOSS-Audio，请参考 moss_audio_usage_guide.md 中的完整指南。

最简配置步骤如下：

git clone -b moss-audio https://github.com/OpenMOSS/sglang.git
cd sglang
pip install -e "python[all]"
pip install nvidia-cudnn-cu12==9.16.0.29
cd ..
sglang serve --model-path ./weights/MOSS-Audio --trust-remote-code

如果您使用默认的 torch==2.9.1+cu128 运行环境，建议在启动 sglang serve 之前安装 nvidia-cudnn-cu12==9.16.0.29。

许可证

MOSS-Audio 中的模型采用 Apache License 2.0 许可证。

引用

@misc{mossaudio2026,
      title={MOSS-Audio Technical Report},
      author={OpenMOSS Team},
      year={2026},
      howpublished={\url{https://github.com/OpenMOSS/MOSS-Audio}},
      note={GitHub repository}
}

MOSS-Audio

最新动态

目录

简介

模型架构

DeepStack跨层特征注入

时间感知表示

已发布模型

评估

通用音频理解（准确率↑）

语音描述（LLM作为评判者得分↑）

语音识别（ASR）

时间戳语音识别（AAS↓）

快速开始

环境设置

推荐设置

可选：FlashAttention 2

基本使用方法

Gradio 应用

SGLang 服务部署

更多信息

许可证

引用

MOSS-Audio

最新动态

目录

简介

模型架构

DeepStack跨层特征注入

时间感知表示

已发布模型

评估

通用音频理解（准确率↑）

语音描述（LLM作为评判者得分↑）

语音识别（ASR）

时间戳语音识别（AAS↓）

快速开始

环境设置

推荐设置

可选：FlashAttention 2

基本使用方法

Gradio 应用

SGLang 服务部署

更多信息

许可证

引用