Fish Audio S2 Pro 是一款领先的文本转语音(TTS)模型,支持对韵律和情感进行细粒度的内联控制。该系统在涵盖 80 多种语言的超过 1000 万小时音频数据上进行训练,融合了强化学习对齐技术与双自回归架构。此次发布包含模型权重、微调代码以及基于 SGLang 的流式推理引擎。
S2 Pro 以仅解码器 transformer 为基础,并结合了基于 RVQ 的音频编解码器(10 个码本,约 21 Hz 帧率),采用双自回归(Dual-AR) 架构:
这种非对称设计在保持推理效率的同时,确保了音频保真度。由于双自回归架构在结构上与标准自回归大型语言模型(LLM)同构,因此它继承了 SGLang 提供的所有 LLM 原生服务优化,包括连续批处理、分页 KV 缓存、CUDA 图重放以及基于 RadixAttention 的前缀缓存。
S2 Pro 通过使用 [tag] 语法在文本中直接嵌入自然语言指令,实现了对语音生成的局部控制。S2 Pro 不依赖于固定的预定义标签集,而是接受自由形式的文本描述,例如 [whisper in small voice]、[professional broadcast tone] 或 [pitch up],从而允许在单词级别进行开放式的表达控制。
常用标签(支持 15,000+ 种独特标签):
[pause] [emphasis] [laughing] [inhale] [chuckle] [tsk] [singing] [excited] [laughing tone] [interrupting] [chuckling] [excited tone] [volume up] [echo] [angry] [low volume] [sigh] [low voice] [whisper] [screaming] [shouting] [loud] [surprised] [short pause] [exhale] [delight] [panting] [audience laughter] [with strong accent] [volume down] [clearing throat] [sad] [moaning] [shocked]
S2 Pro 支持 80 多种语言。
Tier 1(第一梯队): 日语(ja)、英语(en)、中文(zh)
Tier 2(第二梯队): 韩语(ko)、西班牙语(es)、葡萄牙语(pt)、阿拉伯语(ar)、俄语(ru)、法语(fr)、德语(de)
其他支持语言: sv、it、tr、no、nl、cy、eu、ca、da、gl、ta、hu、fi、pl、et、hi、la、ur、th、vi、jw、bn、yo、xsl、cs、sw、nn、he、ms、uk、id、kk、bg、lv、my、tl、sk、ne、fa、af、el、bo、hr、ro、sn、mi、yi、am、be、km、is、az、sd、br、sq、ps、mn、ht、ml、sr、sa、te、ka、bs、pa、lt、kn、si、hy、mr、as、gu、fo 等。
在单张 NVIDIA H200 GPU 上:
如果您觉得我们的工作对您有所帮助,欢迎引用我们的报告:
@misc{liao2026fishaudios2technical,
title={Fish Audio S2 Technical Report},
author={Shijia Liao and Yuxuan Wang and Songting Liu and Yifan Cheng and Ruoyi Zhang and Tianyu Li and Shidong Li and Yisheng Zheng and Xingwei Liu and Qingzheng Wang and Zhizhuo Zhou and Jiahua Liu and Xin Chen and Dawei Han},
year={2026},
eprint={2603.08823},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2603.08823},
}本模型根据 Fish Audio Research License 进行许可。研究和非商业用途可免费使用。商业用途需获得 Fish Audio 的单独许可,请联系 business@fish.audio。