S
Supertone/supertonic-3
模型介绍文件和版本分析
下载使用量0

Supertonic 3 | 超快速、设备端、高准确度文本转语音

Supertonic 3 Preview

Demo Code Python SDK

Supertonic 是一款用于本地推理的轻量级文本转语音系统。它完全依靠 ONNX Runtime 在您的设备上运行,合成过程无需调用云端服务。

Supertonic 3 将开源权重支持的语言从 5 种扩展到31 种,提升了朗读稳定性,并减少了重复/跳读错误。

快速开始

安装 Python SDK 即可立即生成语音。首次运行时,SDK 会从 Hugging Face 下载模型资源。

pip install supertonic
from supertonic import TTS

tts = TTS(auto_download=True)
style = tts.get_voice_style(voice_name="M1")

text = "A gentle breeze moved through the open window while everyone listened to the story."
wav, duration = tts.synthesize(text, voice_style=style, lang="en")

tts.save_audio(wav, "output.wav")
print(f"Generated {duration:.2f}s of audio")

Supertonic 3 的新特性

  • 31 种语言:在支持 5 种语言的 Supertonic 2 基础上进行了扩展。
  • 更稳定的朗读效果:减少了重复和跳读错误,尤其是在处理短语音和长语音时。
  • 更高的说话人相似度:与 Supertonic 2 相比,在共享语言集上的相似度有所提升。
  • 表情标签:支持 <laugh>、<breath> 和 <sigh> 等简单标签。

性能亮点

Supertonic 3 专为实际的设备端推理而设计:体积小巧,可在本地运行,同时性能与更大规模的开源 TTS 系统不相上下。

朗读准确率

Supertonic 3 reading accuracy compared with measured model ranges and VoxCPM2

在各测试语言中,Supertonic 3 的 WER/CER 范围与 VoxCPM2 等规模更大的开源 TTS 模型相比具有竞争力,同时保持了轻量级的设备端部署能力。标有星号的语言使用 CER;其他语言使用 WER。

Supertonic 2 与 Supertonic 3 对比

Supertonic 2 and Supertonic 3 comparison

与 Supertonic 2 相比,Supertonic 3 减少了重复和跳读错误,提高了共享语言集上的说话人相似度,并将语言覆盖范围从 5 种扩展到 31 种。

运行时占用

Supertonic CPU runtime compared with GPU baselines

Supertonic 3 在 CPU 上运行速度很快,即使与在 A100 GPU 上测试的更大规模基准模型相比也是如此,并且内存占用显著更低。它不需要 GPU,这使得本地、浏览器和边缘部署变得更加容易。

模型大小

Model size comparison

Supertonic 3 的公共 ONNX 资源总共约有 9900 万参数,比 7 亿到 20 亿参数级别的开源 TTS 系统小得多。更小的模型尺寸在下载大小、启动时间和设备端推理方面具有实际优势。

支持的语言

代码语言代码语言代码语言代码语言
en英语ko韩语ja日语ar阿拉伯语
bg保加利亚语cs捷克语da丹麦语de德语
el希腊语es西班牙语et爱沙尼亚语fi芬兰语
fr法语hi印地语hr克罗地亚语hu匈牙利语
id印度尼西亚语it意大利语lt立陶宛语lv拉脱维亚语
nl荷兰语pl波兰语pt葡萄牙语ro罗马尼亚语
ru俄语sk斯洛伐克语sl斯洛文尼亚语sv瑞典语
tr土耳其语uk乌克兰语vi越南语

许可证

本项目的示例代码基于 MIT 许可证发布。详情请参见 GitHub 仓库。

随附模型基于 OpenRAIL-M 许可证发布。详情请参见本仓库中的 LICENSE 文件。

本模型使用 PyTorch 进行训练,PyTorch 基于 BSD 3-Clause 许可证授权,但未随本项目一同再分发。详情请参见 PyTorch 许可证。

版权所有 (c) 2026 Supertone Inc.