本代码库包含Step-Audio的多模态大语言模型(LLM)组件。这是一个拥有1300亿参数的多模态LLM,专门用于理解和生成人类语音。该模型经过精心设计,可无缝整合语音识别、语义理解、对话管理、声音克隆和语音生成等功能。
| 模型 | 事实准确性(%↑) | 相关度(%↑) | 对话评分↑ |
|---|---|---|---|
| GLM4-Voice | 54.7 | 66.4 | 3.49 |
| Qwen2-Audio | 22.6 | 26.3 | 2.27 |
| Moshi* | 1.0 | 0 | 1.49 |
| Step-Audio-Chat | 66.4 | 75.2 | 4.11 |
注:标注""的Moshi数据仅供参考
| 模型 | Llama问答 | 网页问答 | TriviaQA* | ComplexBench | HSK-6 |
|---|---|---|---|---|---|
| GLM4-Voice | 64.7 | 32.2 | 39.1 | 66.0 | 74.0 |
| Moshi | 62.3 | 26.6 | 22.8 | - | - |
| Freeze-Omni | 72.0 | 44.7 | 53.9 | - | - |
| LUCY | 59.7 | 29.3 | 27.0 | - | - |
| MinMo | 78.9 | 55.0 | 48.3 | - | - |
| Qwen2-Audio | 52.0 | 27.0 | 37.3 | 54.0 | - |
| Step-Audio-Chat | 81.0 | 75.1 | 58.0 | 74.0 | 86.0 |
注:TriviaQA数据集标注""的结果仅供参考*
| 类别 | 指令跟随 | 音频质量 | ||
|---|---|---|---|---|
| GLM-4-Voice | Step-Audio | GLM-4-Voice | Step-Audio | |
| 多语言 | 1.9 | 3.8 | 2.9 | 3.3 |
| 角色扮演 | 3.8 | 4.2 | 3.2 | 3.6 |
| 歌唱/RAP | 2.1 | 2.4 | 2.4 | 4 |
| 语音控制 | 3.6 | 4.4 | 3.3 | 4.1 |
更多详情请访问我们的代码库:Step-Audio