Supertonic — 极速本地文本转语音（TTS）

Supertonic 是一款极速的本地文本转语音系统，专为极致性能而设计，且计算开销极低。借助 ONNX Runtime 驱动，它可完全在您的设备上运行——无需云服务、无需 API 调用、无需担心隐私问题。

🎧 立即体验：通过我们的 交互式演示 或 Hugging Face 应用 在浏览器中体验 Supertonic，或从 Hugging Face Hub 获取预训练模型开始使用

🛠 GitHub 仓库
要最便捷地使用 Supertonic，请访问官方 GitHub 仓库：
https://github.com/supertone-inc/supertonic
您将找到多语言示例代码。

为什么选择 Supertonic？

⚡ 极速性能：在消费级硬件（M4 Pro）上生成语音的速度高达实时的 167 倍——这一速度是其他任何 TTS 系统都无法比拟的
🪶 超轻量化：仅6600 万参数，针对高效的本地设备性能进行了优化，占用空间极小
📱 支持本地部署：完全隐私保护和零延迟——所有处理都在您的设备本地进行
🎨 自然文本处理：无需预处理，即可无缝处理数字、日期、货币、缩写和复杂表达式
⚙️ 高度可配置：可调整推理步骤、批处理等参数，以满足您的特定需求
🧩 灵活部署：借助多种运行时后端，可在服务器、浏览器和边缘设备上无缝部署。

语言支持

我们在多个生态系统中提供即用型 TTS 推理示例：

语言/平台	路径	描述
[Python]	`py/`	ONNX Runtime 推理
[Node.js]	`nodejs/`	服务器端 JavaScript
[Browser]	`web/`	WebGPU/WASM 推理
[Java]	`java/`	跨平台 JVM
[C++]	`cpp/`	高性能 C++
[C#]	`csharp/`	.NET 生态系统
[Go]	`go/`	Go 实现
[Swift]	`swift/`	macOS 应用程序
[iOS]	`ios/`	原生 iOS 应用
[Rust]	`rust/`	内存安全系统
[Flutter]	`flutter/`	跨平台应用

有关详细的使用说明，请参阅各语言目录中的 README.md。

开始使用

首先，克隆仓库：

git clone https://github.com/supertone-inc/supertonic.git
cd supertonic

前提条件

运行示例前，请下载 ONNX 模型和预设语音，并将其放置在 assets 目录中：

git clone https://huggingface.co/Supertone/supertonic assets

注意： Hugging Face 仓库使用 Git LFS。克隆或拉取大型模型文件前，请确保已安装并初始化 Git LFS。

macOS：brew install git-lfs && git lfs install

通用系统：请访问 https://git-lfs.com 获取安装程序

技术详情

运行时：采用 ONNX Runtime 实现跨平台推理（针对 CPU 优化；GPU 模式未经测试）
浏览器支持：通过 onnxruntime-web 实现客户端推理
批量处理：支持批量推理以提高吞吐量
音频输出：输出 16 位 WAV 文件

性能表现

我们使用两个关键指标评估了 Supertonic 在 2 个推理步骤下的性能，测试文本涵盖不同长度：短文本（59 字符）、中文本（152 字符）和长文本（266 字符）。

指标说明：

字符每秒：通过输入字符数除以生成音频所需时间来衡量吞吐量。数值越高越好。
实时因子（RTF）：衡量合成音频的时间与其时长的相对关系。数值越低越好（例如，RTF 为 0.1 表示生成 1 秒音频仅需 0.1 秒）。

字符每秒

系统	短文本（59 字符）	中文本（152 字符）	长文本（266 字符）
Supertonic（M4 pro - CPU）	912	1048	1263
Supertonic（M4 pro - WebGPU）	996	1801	2509
Supertonic（RTX4090）	2615	6548	12164
`API` ElevenLabs Flash v2.5	144	209	287
`API` OpenAI TTS-1	37	55	82
`API` Gemini 2.5 Flash TTS	12	18	24
`API` Supertone Sona speech 1	38	64	92
`Open` Kokoro	104	107	117
`Open` NeuTTS Air	37	42	47

备注：
API = 基于云的 API 服务（从首尔节点测试）
Open = 开源模型
Supertonic（M4 pro - CPU）和（M4 pro - WebGPU）：使用 ONNX 测试
Supertonic（RTX4090）：使用 PyTorch 模型测试
Kokoro：在 M4 Pro CPU 上使用 ONNX 测试
NeuTTS Air：在 M4 Pro CPU 上使用 Q8-GGUF 测试

实时因子

系统	短文本（59字符）	中文本（152字符）	长文本（266字符）
Supertonic（M4 pro - CPU）	0.015	0.013	0.012
Supertonic（M4 pro - WebGPU）	0.014	0.007	0.006
Supertonic（RTX4090）	0.005	0.002	0.001
`API` ElevenLabs Flash v2.5	0.133	0.077	0.057
`API` OpenAI TTS-1	0.471	0.302	0.201
`API` Gemini 2.5 Flash TTS	1.060	0.673	0.541
`API` Supertone Sona speech 1	0.372	0.206	0.163
`Open` Kokoro	0.144	0.124	0.126
`Open` NeuTTS Air	0.390	0.338	0.343

附加性能数据（5步推理）

每秒字符数（5步）

系统	短文本（59字符）	中文本（152字符）	长文本（266字符）
Supertonic（M4 pro - CPU）	596	691	850
Supertonic（M4 pro - WebGPU）	570	1118	1546
Supertonic（RTX4090）	1286	3757	6242

实时因子（5步）

系统	短文本（59字符）	中文本（152字符）	长文本（266字符）
Supertonic（M4 pro - CPU）	0.023	0.019	0.018
Supertonic（M4 pro - WebGPU）	0.024	0.012	0.010
Supertonic（RTX4090）	0.011	0.004	0.002

许可证

本项目的示例代码基于 MIT 许可证发布。详情参见 LICENSE。

随附模型基于 OpenRAIL-M 许可证发布。详情参见 LICENSE 文件。

本模型使用 PyTorch 进行训练，PyTorch 基于 BSD 3-Clause 许可证授权，但不随本项目一同分发。详情参见 LICENSE。