
Supertonic 是一款用于本地推理的轻量级文本转语音系统。它完全依靠 ONNX Runtime 在您的设备上运行,合成过程无需调用云端服务。
Supertonic 3 将开源权重支持的语言从 5 种扩展到31 种,提升了朗读稳定性,并减少了重复/跳读错误。
安装 Python SDK 即可立即生成语音。首次运行时,SDK 会从 Hugging Face 下载模型资源。
pip install supertonicfrom supertonic import TTS
tts = TTS(auto_download=True)
style = tts.get_voice_style(voice_name="M1")
text = "A gentle breeze moved through the open window while everyone listened to the story."
wav, duration = tts.synthesize(text, voice_style=style, lang="en")
tts.save_audio(wav, "output.wav")
print(f"Generated {duration:.2f}s of audio")<laugh>、<breath> 和 <sigh> 等简单标签。Supertonic 3 专为实际的设备端推理而设计:体积小巧,可在本地运行,同时性能与更大规模的开源 TTS 系统不相上下。
在各测试语言中,Supertonic 3 的 WER/CER 范围与 VoxCPM2 等规模更大的开源 TTS 模型相比具有竞争力,同时保持了轻量级的设备端部署能力。标有星号的语言使用 CER;其他语言使用 WER。
与 Supertonic 2 相比,Supertonic 3 减少了重复和跳读错误,提高了共享语言集上的说话人相似度,并将语言覆盖范围从 5 种扩展到 31 种。
Supertonic 3 在 CPU 上运行速度很快,即使与在 A100 GPU 上测试的更大规模基准模型相比也是如此,并且内存占用显著更低。它不需要 GPU,这使得本地、浏览器和边缘部署变得更加容易。
Supertonic 3 的公共 ONNX 资源总共约有 9900 万参数,比 7 亿到 20 亿参数级别的开源 TTS 系统小得多。更小的模型尺寸在下载大小、启动时间和设备端推理方面具有实际优势。
| 代码 | 语言 | 代码 | 语言 | 代码 | 语言 | 代码 | 语言 |
|---|---|---|---|---|---|---|---|
en | 英语 | ko | 韩语 | ja | 日语 | ar | 阿拉伯语 |
bg | 保加利亚语 | cs | 捷克语 | da | 丹麦语 | de | 德语 |
el | 希腊语 | es | 西班牙语 | et | 爱沙尼亚语 | fi | 芬兰语 |
fr | 法语 | hi | 印地语 | hr | 克罗地亚语 | hu | 匈牙利语 |
id | 印度尼西亚语 | it | 意大利语 | lt | 立陶宛语 | lv | 拉脱维亚语 |
nl | 荷兰语 | pl | 波兰语 | pt | 葡萄牙语 | ro | 罗马尼亚语 |
ru | 俄语 | sk | 斯洛伐克语 | sl | 斯洛文尼亚语 | sv | 瑞典语 |
tr | 土耳其语 | uk | 乌克兰语 | vi | 越南语 |
本项目的示例代码基于 MIT 许可证发布。详情请参见 GitHub 仓库。
随附模型基于 OpenRAIL-M 许可证发布。详情请参见本仓库中的 LICENSE 文件。
本模型使用 PyTorch 进行训练,PyTorch 基于 BSD 3-Clause 许可证授权,但未随本项目一同再分发。详情请参见 PyTorch 许可证。
版权所有 (c) 2026 Supertone Inc.