Supertonic 3 | 超快速、设备端、高准确度文本转语音

Supertonic 3 Preview

Supertonic 是一款用于本地推理的轻量级文本转语音系统。它完全依靠 ONNX Runtime 在您的设备上运行，合成过程无需调用云端服务。

Supertonic 3 将开源权重支持的语言从 5 种扩展到31 种，提升了朗读稳定性，并减少了重复/跳读错误。

快速开始

安装 Python SDK 即可立即生成语音。首次运行时，SDK 会从 Hugging Face 下载模型资源。

pip install supertonic

from supertonic import TTS

tts = TTS(auto_download=True)
style = tts.get_voice_style(voice_name="M1")

text = "A gentle breeze moved through the open window while everyone listened to the story."
wav, duration = tts.synthesize(text, voice_style=style, lang="en")

tts.save_audio(wav, "output.wav")
print(f"Generated {duration:.2f}s of audio")

Supertonic 3 的新特性

31 种语言：在支持 5 种语言的 Supertonic 2 基础上进行了扩展。
更稳定的朗读效果：减少了重复和跳读错误，尤其是在处理短语音和长语音时。
更高的说话人相似度：与 Supertonic 2 相比，在共享语言集上的相似度有所提升。
表情标签：支持 <laugh>、<breath> 和 <sigh> 等简单标签。

性能亮点

Supertonic 3 专为实际的设备端推理而设计：体积小巧，可在本地运行，同时性能与更大规模的开源 TTS 系统不相上下。

朗读准确率

Supertonic 3 reading accuracy compared with measured model ranges and VoxCPM2

在各测试语言中，Supertonic 3 的 WER/CER 范围与 VoxCPM2 等规模更大的开源 TTS 模型相比具有竞争力，同时保持了轻量级的设备端部署能力。标有星号的语言使用 CER；其他语言使用 WER。

Supertonic 2 与 Supertonic 3 对比

Supertonic 2 and Supertonic 3 comparison

与 Supertonic 2 相比，Supertonic 3 减少了重复和跳读错误，提高了共享语言集上的说话人相似度，并将语言覆盖范围从 5 种扩展到 31 种。

运行时占用

Supertonic CPU runtime compared with GPU baselines

Supertonic 3 在 CPU 上运行速度很快，即使与在 A100 GPU 上测试的更大规模基准模型相比也是如此，并且内存占用显著更低。它不需要 GPU，这使得本地、浏览器和边缘部署变得更加容易。

模型大小

Model size comparison

Supertonic 3 的公共 ONNX 资源总共约有 9900 万参数，比 7 亿到 20 亿参数级别的开源 TTS 系统小得多。更小的模型尺寸在下载大小、启动时间和设备端推理方面具有实际优势。

支持的语言

代码	语言	代码	语言	代码	语言	代码	语言
`en`	英语	`ko`	韩语	`ja`	日语	`ar`	阿拉伯语
`bg`	保加利亚语	`cs`	捷克语	`da`	丹麦语	`de`	德语
`el`	希腊语	`es`	西班牙语	`et`	爱沙尼亚语	`fi`	芬兰语
`fr`	法语	`hi`	印地语	`hr`	克罗地亚语	`hu`	匈牙利语
`id`	印度尼西亚语	`it`	意大利语	`lt`	立陶宛语	`lv`	拉脱维亚语
`nl`	荷兰语	`pl`	波兰语	`pt`	葡萄牙语	`ro`	罗马尼亚语
`ru`	俄语	`sk`	斯洛伐克语	`sl`	斯洛文尼亚语	`sv`	瑞典语
`tr`	土耳其语	`uk`	乌克兰语	`vi`	越南语

许可证

本项目的示例代码基于 MIT 许可证发布。详情请参见 GitHub 仓库。

随附模型基于 OpenRAIL-M 许可证发布。详情请参见本仓库中的 LICENSE 文件。

本模型使用 PyTorch 进行训练，PyTorch 基于 BSD 3-Clause 许可证授权，但未随本项目一同再分发。详情请参见 PyTorch 许可证。