阶跃星辰StepFun/Step-Audio-Chat
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

1. Step-Audio-Chat

本代码库包含Step-Audio的多模态大语言模型(LLM)组件。这是一个拥有1300亿参数的多模态LLM,专门用于理解和生成人类语音。该模型经过精心设计,可无缝整合语音识别、语义理解、对话管理、声音克隆和语音生成等功能。

2. 性能评估

2.1 基于StepEval-Audio-360的LLM评判指标(GPT-4o)

StepEval-Audio-360语音聊天基础能力对比
模型事实准确性(%↑)相关度(%↑)对话评分↑
GLM4-Voice54.766.43.49
Qwen2-Audio22.626.32.27
Moshi*1.001.49
Step-Audio-Chat66.475.24.11

注:标注""的Moshi数据仅供参考

2.2 公开测试集表现

模型Llama问答网页问答TriviaQA*ComplexBenchHSK-6
GLM4-Voice64.732.239.166.074.0
Moshi62.326.622.8--
Freeze-Omni72.044.753.9--
LUCY59.729.327.0--
MinMo78.955.048.3--
Qwen2-Audio52.027.037.354.0-
Step-Audio-Chat81.075.158.074.086.0

注:TriviaQA数据集标注""的结果仅供参考*

2.3 语音指令跟随能力

类别指令跟随音频质量
GLM-4-VoiceStep-AudioGLM-4-VoiceStep-Audio
多语言1.93.82.93.3
角色扮演3.84.23.23.6
歌唱/RAP2.12.42.44
语音控制3.64.43.34.1

3. 更多信息

更多详情请访问我们的代码库:Step-Audio