Supertonic 是一款极速的本地文本转语音系统,专为极致性能而设计,且计算开销极低。借助 ONNX Runtime 驱动,它可完全在您的设备上运行——无需云服务、无需 API 调用、无需担心隐私问题。
🎧 立即体验:通过我们的 交互式演示 或 Hugging Face 应用 在浏览器中体验 Supertonic,或从 Hugging Face Hub 获取预训练模型开始使用
🛠 GitHub 仓库
要最便捷地使用 Supertonic,请访问官方 GitHub 仓库:
https://github.com/supertone-inc/supertonic
您将找到多语言示例代码。
我们在多个生态系统中提供即用型 TTS 推理示例:
| 语言/平台 | 路径 | 描述 |
|---|---|---|
| [Python] | py/ | ONNX Runtime 推理 |
| [Node.js] | nodejs/ | 服务器端 JavaScript |
| [Browser] | web/ | WebGPU/WASM 推理 |
| [Java] | java/ | 跨平台 JVM |
| [C++] | cpp/ | 高性能 C++ |
| [C#] | csharp/ | .NET 生态系统 |
| [Go] | go/ | Go 实现 |
| [Swift] | swift/ | macOS 应用程序 |
| [iOS] | ios/ | 原生 iOS 应用 |
| [Rust] | rust/ | 内存安全系统 |
| [Flutter] | flutter/ | 跨平台应用 |
有关详细的使用说明,请参阅各语言目录中的 README.md。
首先,克隆仓库:
git clone https://github.com/supertone-inc/supertonic.git
cd supertonic运行示例前,请下载 ONNX 模型和预设语音,并将其放置在 assets 目录中:
git clone https://huggingface.co/Supertone/supertonic assets注意: Hugging Face 仓库使用 Git LFS。克隆或拉取大型模型文件前,请确保已安装并初始化 Git LFS。
- macOS:
brew install git-lfs && git lfs install- 通用系统:请访问
https://git-lfs.com获取安装程序
我们使用两个关键指标评估了 Supertonic 在 2 个推理步骤下的性能,测试文本涵盖不同长度:短文本(59 字符)、中文本(152 字符)和长文本(266 字符)。
指标说明:
| 系统 | 短文本(59 字符) | 中文本(152 字符) | 长文本(266 字符) |
|---|---|---|---|
| Supertonic(M4 pro - CPU) | 912 | 1048 | 1263 |
| Supertonic(M4 pro - WebGPU) | 996 | 1801 | 2509 |
| Supertonic(RTX4090) | 2615 | 6548 | 12164 |
API ElevenLabs Flash v2.5 | 144 | 209 | 287 |
API OpenAI TTS-1 | 37 | 55 | 82 |
API Gemini 2.5 Flash TTS | 12 | 18 | 24 |
API Supertone Sona speech 1 | 38 | 64 | 92 |
Open Kokoro | 104 | 107 | 117 |
Open NeuTTS Air | 37 | 42 | 47 |
备注:
API= 基于云的 API 服务(从首尔节点测试)
Open= 开源模型
Supertonic(M4 pro - CPU)和(M4 pro - WebGPU):使用 ONNX 测试
Supertonic(RTX4090):使用 PyTorch 模型测试
Kokoro:在 M4 Pro CPU 上使用 ONNX 测试
NeuTTS Air:在 M4 Pro CPU 上使用 Q8-GGUF 测试
| 系统 | 短文本(59字符) | 中文本(152字符) | 长文本(266字符) |
|---|---|---|---|
| Supertonic(M4 pro - CPU) | 0.015 | 0.013 | 0.012 |
| Supertonic(M4 pro - WebGPU) | 0.014 | 0.007 | 0.006 |
| Supertonic(RTX4090) | 0.005 | 0.002 | 0.001 |
API ElevenLabs Flash v2.5 | 0.133 | 0.077 | 0.057 |
API OpenAI TTS-1 | 0.471 | 0.302 | 0.201 |
API Gemini 2.5 Flash TTS | 1.060 | 0.673 | 0.541 |
API Supertone Sona speech 1 | 0.372 | 0.206 | 0.163 |
Open Kokoro | 0.144 | 0.124 | 0.126 |
Open NeuTTS Air | 0.390 | 0.338 | 0.343 |
每秒字符数(5步)
| 系统 | 短文本(59字符) | 中文本(152字符) | 长文本(266字符) |
|---|---|---|---|
| Supertonic(M4 pro - CPU) | 596 | 691 | 850 |
| Supertonic(M4 pro - WebGPU) | 570 | 1118 | 1546 |
| Supertonic(RTX4090) | 1286 | 3757 | 6242 |
实时因子(5步)
| 系统 | 短文本(59字符) | 中文本(152字符) | 长文本(266字符) |
|---|---|---|---|
| Supertonic(M4 pro - CPU) | 0.023 | 0.019 | 0.018 |
| Supertonic(M4 pro - WebGPU) | 0.024 | 0.012 | 0.010 |
| Supertonic(RTX4090) | 0.011 | 0.004 | 0.002 |
本项目的示例代码基于 MIT 许可证发布。详情参见 LICENSE。
随附模型基于 OpenRAIL-M 许可证发布。详情参见 LICENSE 文件。
本模型使用 PyTorch 进行训练,PyTorch 基于 BSD 3-Clause 许可证授权,但不随本项目一同分发。详情参见 LICENSE。
Copyright (c) 2025 Supertone Inc.