Step-Audio-Tokenizer

Step-Audio LLM 是业界首个具备 1300 亿参数、类人化的统一端到端模型，集成了多模态语音理解与生成能力，涵盖歌声合成、工具调用、角色扮演以及多语言/方言理解与合成等功能。

本仓库提供 Step-Audio LLM 的语音分词器组件。针对语言特征分词，我们采用 Paraformer 编码器的输出，以 16.7 Hz 的标记率量化为离散表征；针对语义特征分词，则使用 CosyVoice 专用分词器，该组件专为高效编码自然流畅语音输出的核心特征而设计，运行标记率为 25 Hz。

Step-Audio-Tokenizer

更多信息

Step-Audio-Tokenizer

更多信息