本仓库包含 Step-Audio 的多模态大语言模型(LLM)组件。它是一个拥有 1300 亿参数的多模态大语言模型,负责理解和生成人类语音。该模型专为无缝集成语音识别、语义理解、对话管理、声音克隆和语音生成等功能而设计。
| 模型 | 事实性(% ↑) | 相关性(% ↑) | 聊天评分 ↑ |
|---|---|---|---|
| GLM4-Voice | 54.7 | 66.4 | 3.49 |
| Qwen2-Audio | 22.6 | 26.3 | 2.27 |
| Moshi* | 1.0 | 0 | 1.49 |
| Step-Audio-Chat | 66.4 | 75.2 | 4.11 |
*注:Moshi 标记有“*”,仅供参考。
| 模型 | Llama 问题 | 网络问题 | TriviaQA* | ComplexBench | HSK-6 |
|---|---|---|---|---|---|
| GLM4-Voice | 64.7 | 32.2 | 39.1 | 66.0 | 74.0 |
| Moshi | 62.3 | 26.6 | 22.8 | - | - |
| Freeze-Omni | 72.0 | 44.7 | 53.9 | - | - |
| LUCY | 59.7 | 29.3 | 27.0 | - | - |
| MinMo | 78.9 | 55.0 | 48.3 | - | - |
| Qwen2-Audio | 52.0 | 27.0 | 37.3 | 54.0 | - |
| Step-Audio-Chat | 81.0 | 75.1 | 58.0 | 74.0 | 86.0 |
注:TriviaQA 数据集上标有“*”的结果仅供参考。
标有“*”的 TriviaQA 数据集表示结果仅供参考。
| 类别 | 指令遵循 | 音频质量 | ||
|---|---|---|---|---|
| GLM-4-Voice | Step-Audio | GLM-4-Voice | Step-Audio | |
| 语言 | 1.9 | 3.8 | 2.9 | 3.3 |
| 角色扮演 | 3.8 | 4.2 | 3.2 | 3.6 |
| 唱歌/说唱 | 2.1 | 2.4 | 2.4 | 4 |
| 语音控制 | 3.6 | 4.4 | 3.3 | 4.1 |
如需了解更多信息,请参考我们的代码库:Step-Audio。