Step-Audio LLM 是业界首个具备 1300 亿参数、类人化的统一端到端模型,集成了多模态语音理解与生成能力,涵盖歌声合成、工具调用、角色扮演以及多语言/方言理解与合成等功能。
本仓库提供 Step-Audio LLM 的语音分词器组件。针对语言特征分词,我们采用 Paraformer 编码器的输出,以 16.7 Hz 的标记率量化为离散表征;针对语义特征分词,则使用 CosyVoice 专用分词器,该组件专为高效编码自然流畅语音输出的核心特征而设计,运行标记率为 25 Hz。
详情请参阅我们的代码仓库:Step-Audio。