1. Step-Audio-Chat

本代码库包含Step-Audio的多模态大语言模型（LLM）组件。这是一个拥有1300亿参数的多模态LLM，专门用于理解和生成人类语音。该模型经过精心设计，可无缝整合语音识别、语义理解、对话管理、声音克隆和语音生成等功能。

2. 性能评估

StepEval-Audio-360语音聊天基础能力对比
模型	事实准确性（%↑）	相关度（%↑）	对话评分↑
GLM4-Voice	54.7	66.4	3.49
Qwen2-Audio	22.6	26.3	2.27
Moshi^*	1.0	0	1.49
Step-Audio-Chat	66.4	75.2	4.11

注：标注""的Moshi数据仅供参考

模型	Llama问答	网页问答	TriviaQA*	ComplexBench	HSK-6
GLM4-Voice	64.7	32.2	39.1	66.0	74.0
Moshi	62.3	26.6	22.8	-	-
Freeze-Omni	72.0	44.7	53.9	-	-
LUCY	59.7	29.3	27.0	-	-
MinMo	78.9	55.0	48.3	-	-
Qwen2-Audio	52.0	27.0	37.3	54.0	-
Step-Audio-Chat	*81.0*	75.1	58.0	74.0	86.0

注：TriviaQA数据集标注""的结果仅供参考*

更多详情请访问我们的代码库：Step-Audio

StepEval-Audio-360语音聊天基础能力对比
模型	事实准确性（%↑）	相关度（%↑）	对话评分↑
GLM4-Voice	54.7	66.4	3.49
Qwen2-Audio	22.6	26.3	2.27
Moshi^*	1.0	0	1.49
Step-Audio-Chat	66.4	75.2	4.11

注：标注""的Moshi数据仅供参考

模型	Llama问答	网页问答	TriviaQA*	ComplexBench	HSK-6
GLM4-Voice	64.7	32.2	39.1	66.0	74.0
Moshi	62.3	26.6	22.8	-	-
Freeze-Omni	72.0	44.7	53.9	-	-
LUCY	59.7	29.3	27.0	-	-
MinMo	78.9	55.0	48.3	-	-
Qwen2-Audio	52.0	27.0	37.3	54.0	-
Step-Audio-Chat	*81.0*	75.1	58.0	74.0	86.0

注：TriviaQA数据集标注""的结果仅供参考*

更多详情请访问我们的代码库：Step-Audio