1. Step-Audio-Chat

本仓库包含 Step-Audio 的多模态大语言模型（LLM）组件。它是一个拥有 1300 亿参数的多模态大语言模型，负责理解和生成人类语音。该模型专为无缝集成语音识别、语义理解、对话管理、声音克隆和语音生成等功能而设计。

2. 评估

StepEval-Audio-360 上语音聊天基础能力对比。
模型	事实性（% ↑）	相关性（% ↑）	聊天评分 ↑
GLM4-Voice	54.7	66.4	3.49
Qwen2-Audio	22.6	26.3	2.27
Moshi^*	1.0	0	1.49
Step-Audio-Chat	66.4	75.2	4.11

*注：Moshi 标记有“*”，仅供参考。

模型	Llama 问题	网络问题	TriviaQA*	ComplexBench	HSK-6
GLM4-Voice	64.7	32.2	39.1	66.0	74.0
Moshi	62.3	26.6	22.8	-	-
Freeze-Omni	72.0	44.7	53.9	-	-
LUCY	59.7	29.3	27.0	-	-
MinMo	78.9	55.0	48.3	-	-
Qwen2-Audio	52.0	27.0	37.3	54.0	-
Step-Audio-Chat	*81.0*	75.1	58.0	74.0	86.0

注：TriviaQA 数据集上标有“*”的结果仅供参考。

标有“*”的 TriviaQA 数据集表示结果仅供参考。

如需了解更多信息，请参考我们的代码库：Step-Audio。

StepEval-Audio-360 上语音聊天基础能力对比。
模型	事实性（% ↑）	相关性（% ↑）	聊天评分 ↑
GLM4-Voice	54.7	66.4	3.49
Qwen2-Audio	22.6	26.3	2.27
Moshi^*	1.0	0	1.49
Step-Audio-Chat	66.4	75.2	4.11

*注：Moshi 标记有“*”，仅供参考。

模型	Llama 问题	网络问题	TriviaQA*	ComplexBench	HSK-6
GLM4-Voice	64.7	32.2	39.1	66.0	74.0
Moshi	62.3	26.6	22.8	-	-
Freeze-Omni	72.0	44.7	53.9	-	-
LUCY	59.7	29.3	27.0	-	-
MinMo	78.9	55.0	48.3	-	-
Qwen2-Audio	52.0	27.0	37.3	54.0	-
Step-Audio-Chat	*81.0*	75.1	58.0	74.0	86.0

注：TriviaQA 数据集上标有“*”的结果仅供参考。

标有“*”的 TriviaQA 数据集表示结果仅供参考。

如需了解更多信息，请参考我们的代码库：Step-Audio。