HuggingFace镜像/s2-pro
模型介绍文件和版本分析
下载使用量0

Fish Audio S2 Pro

Fish Audio S2 Pro 概览 — 细粒度控制、多说话人多轮生成、低延迟流式传输和长上下文推理。

技术报告 | GitHub | 体验平台

Fish Audio S2 Pro 是一款领先的文本转语音(TTS)模型,支持对韵律和情感进行细粒度的内联控制。该系统在涵盖 80 多种语言的超过 1000 万小时音频数据上进行训练,融合了强化学习对齐技术与双自回归架构。此次发布包含模型权重、微调代码以及基于 SGLang 的流式推理引擎。

架构

S2 Pro 以仅解码器 transformer 为基础,并结合了基于 RVQ 的音频编解码器(10 个码本,约 21 Hz 帧率),采用双自回归(Dual-AR) 架构:

  • 慢速 AR(40 亿参数):沿时间轴运行,预测主要语义码本。
  • 快速 AR(4 亿参数):在每个时间步生成其余 9 个残差码本,重建细粒度的声学细节。

这种非对称设计在保持推理效率的同时,确保了音频保真度。由于双自回归架构在结构上与标准自回归大型语言模型(LLM)同构,因此它继承了 SGLang 提供的所有 LLM 原生服务优化,包括连续批处理、分页 KV 缓存、CUDA 图重放以及基于 RadixAttention 的前缀缓存。

细粒度内联控制

S2 Pro 通过使用 [tag] 语法在文本中直接嵌入自然语言指令,实现了对语音生成的局部控制。S2 Pro 不依赖于固定的预定义标签集,而是接受自由形式的文本描述,例如 [whisper in small voice]、[professional broadcast tone] 或 [pitch up],从而允许在单词级别进行开放式的表达控制。

常用标签(支持 15,000+ 种独特标签):

[pause] [emphasis] [laughing] [inhale] [chuckle] [tsk] [singing] [excited] [laughing tone] [interrupting] [chuckling] [excited tone] [volume up] [echo] [angry] [low volume] [sigh] [low voice] [whisper] [screaming] [shouting] [loud] [surprised] [short pause] [exhale] [delight] [panting] [audience laughter] [with strong accent] [volume down] [clearing throat] [sad] [moaning] [shocked]

支持语言

S2 Pro 支持 80 多种语言。

Tier 1(第一梯队): 日语(ja)、英语(en)、中文(zh)

Tier 2(第二梯队): 韩语(ko)、西班牙语(es)、葡萄牙语(pt)、阿拉伯语(ar)、俄语(ru)、法语(fr)、德语(de)

其他支持语言: sv、it、tr、no、nl、cy、eu、ca、da、gl、ta、hu、fi、pl、et、hi、la、ur、th、vi、jw、bn、yo、xsl、cs、sw、nn、he、ms、uk、id、kk、bg、lv、my、tl、sk、ne、fa、af、el、bo、hr、ro、sn、mi、yi、am、be、km、is、az、sd、br、sq、ps、mn、ht、ml、sr、sa、te、ka、bs、pa、lt、kn、si、hy、mr、as、gu、fo 等。

生产级流式性能

在单张 NVIDIA H200 GPU 上:

  • 实时因子(RTF): 0.195
  • 首音频输出时间: ~100 毫秒
  • 吞吐量: 3,000+ 声学 tokens/秒,同时保持 RTF 低于 0.5

链接

  • Fish Speech GitHub
  • Fish Audio Playground
  • 博客与技术报告

技术报告

如果您觉得我们的工作对您有所帮助,欢迎引用我们的报告:

@misc{liao2026fishaudios2technical,
      title={Fish Audio S2 Technical Report}, 
      author={Shijia Liao and Yuxuan Wang and Songting Liu and Yifan Cheng and Ruoyi Zhang and Tianyu Li and Shidong Li and Yisheng Zheng and Xingwei Liu and Qingzheng Wang and Zhizhuo Zhou and Jiahua Liu and Xin Chen and Dawei Han},
      year={2026},
      eprint={2603.08823},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2603.08823},
}

许可协议

本模型根据 Fish Audio Research License 进行许可。研究和非商业用途可免费使用。商业用途需获得 Fish Audio 的单独许可,请联系 business@fish.audio。