HuggingFace镜像/Step-Audio-Chat
模型介绍文件和版本分析
下载使用量0

1. Step-Audio-Chat

本仓库包含 Step-Audio 的多模态大语言模型(LLM)组件。它是一个拥有 1300 亿参数的多模态大语言模型,负责理解和生成人类语音。该模型专为无缝集成语音识别、语义理解、对话管理、声音克隆和语音生成等功能而设计。

2. 评估

2.1 基于 StepEval-Audio-360 的 LLM 评判指标(GPT-4o)

StepEval-Audio-360 上语音聊天基础能力对比。
模型事实性(% ↑)相关性(% ↑)聊天评分 ↑
GLM4-Voice54.766.43.49
Qwen2-Audio22.626.32.27
Moshi*1.001.49
Step-Audio-Chat66.475.24.11

*注:Moshi 标记有“*”,仅供参考。

2.2 公开测试集

模型Llama 问题网络问题TriviaQA*ComplexBenchHSK-6
GLM4-Voice64.732.239.166.074.0
Moshi62.326.622.8--
Freeze-Omni72.044.753.9--
LUCY59.729.327.0--
MinMo78.955.048.3--
Qwen2-Audio52.027.037.354.0-
Step-Audio-Chat81.075.158.074.086.0

注:TriviaQA 数据集上标有“*”的结果仅供参考。

标有“*”的 TriviaQA 数据集表示结果仅供参考。

2.3 音频指令遵循

类别指令遵循音频质量
GLM-4-VoiceStep-AudioGLM-4-VoiceStep-Audio
语言1.93.82.93.3
角色扮演3.84.23.23.6
唱歌/说唱2.12.42.44
语音控制3.64.43.34.1

3. 更多信息

如需了解更多信息,请参考我们的代码库:Step-Audio。