S
Supertone/supertonic
模型介绍文件和版本分析
下载使用量0

Supertonic — 极速本地文本转语音(TTS)

Supertonic 是一款极速的本地文本转语音系统,专为极致性能而设计,且计算开销极低。借助 ONNX Runtime 驱动,它可完全在您的设备上运行——无需云服务、无需 API 调用、无需担心隐私问题。

🎧 立即体验:通过我们的 交互式演示 或 Hugging Face 应用 在浏览器中体验 Supertonic,或从 Hugging Face Hub 获取预训练模型开始使用

🛠 GitHub 仓库
要最便捷地使用 Supertonic,请访问官方 GitHub 仓库:
https://github.com/supertone-inc/supertonic
您将找到多语言示例代码。

目录

  • 为什么选择 Supertonic?
  • 语言支持
  • 快速开始
  • 性能
  • 引用
  • 许可证

为什么选择 Supertonic?

  • ⚡ 极速性能:在消费级硬件(M4 Pro)上生成语音的速度高达实时的 167 倍——这一速度是其他任何 TTS 系统都无法比拟的
  • 🪶 超轻量化:仅6600 万参数,针对高效的本地设备性能进行了优化,占用空间极小
  • 📱 支持本地部署:完全隐私保护和零延迟——所有处理都在您的设备本地进行
  • 🎨 自然文本处理:无需预处理,即可无缝处理数字、日期、货币、缩写和复杂表达式
  • ⚙️ 高度可配置:可调整推理步骤、批处理等参数,以满足您的特定需求
  • 🧩 灵活部署:借助多种运行时后端,可在服务器、浏览器和边缘设备上无缝部署。

语言支持

我们在多个生态系统中提供即用型 TTS 推理示例:

语言/平台路径描述
[Python]py/ONNX Runtime 推理
[Node.js]nodejs/服务器端 JavaScript
[Browser]web/WebGPU/WASM 推理
[Java]java/跨平台 JVM
[C++]cpp/高性能 C++
[C#]csharp/.NET 生态系统
[Go]go/Go 实现
[Swift]swift/macOS 应用程序
[iOS]ios/原生 iOS 应用
[Rust]rust/内存安全系统
[Flutter]flutter/跨平台应用

有关详细的使用说明,请参阅各语言目录中的 README.md。

开始使用

首先,克隆仓库:

git clone https://github.com/supertone-inc/supertonic.git
cd supertonic

前提条件

运行示例前,请下载 ONNX 模型和预设语音,并将其放置在 assets 目录中:

git clone https://huggingface.co/Supertone/supertonic assets

注意: Hugging Face 仓库使用 Git LFS。克隆或拉取大型模型文件前,请确保已安装并初始化 Git LFS。

  • macOS:brew install git-lfs && git lfs install
  • 通用系统:请访问 https://git-lfs.com 获取安装程序

技术详情

  • 运行时:采用 ONNX Runtime 实现跨平台推理(针对 CPU 优化;GPU 模式未经测试)
  • 浏览器支持:通过 onnxruntime-web 实现客户端推理
  • 批量处理:支持批量推理以提高吞吐量
  • 音频输出:输出 16 位 WAV 文件

性能表现

我们使用两个关键指标评估了 Supertonic 在 2 个推理步骤下的性能,测试文本涵盖不同长度:短文本(59 字符)、中文本(152 字符)和长文本(266 字符)。

指标说明:

  • 字符每秒:通过输入字符数除以生成音频所需时间来衡量吞吐量。数值越高越好。
  • 实时因子(RTF):衡量合成音频的时间与其时长的相对关系。数值越低越好(例如,RTF 为 0.1 表示生成 1 秒音频仅需 0.1 秒)。

字符每秒

系统短文本(59 字符)中文本(152 字符)长文本(266 字符)
Supertonic(M4 pro - CPU)91210481263
Supertonic(M4 pro - WebGPU)99618012509
Supertonic(RTX4090)2615654812164
API ElevenLabs Flash v2.5144209287
API OpenAI TTS-1375582
API Gemini 2.5 Flash TTS121824
API Supertone Sona speech 1386492
Open Kokoro104107117
Open NeuTTS Air374247

备注:
API = 基于云的 API 服务(从首尔节点测试)
Open = 开源模型
Supertonic(M4 pro - CPU)和(M4 pro - WebGPU):使用 ONNX 测试
Supertonic(RTX4090):使用 PyTorch 模型测试
Kokoro:在 M4 Pro CPU 上使用 ONNX 测试
NeuTTS Air:在 M4 Pro CPU 上使用 Q8-GGUF 测试

实时因子

系统短文本(59字符)中文本(152字符)长文本(266字符)
Supertonic(M4 pro - CPU)0.0150.0130.012
Supertonic(M4 pro - WebGPU)0.0140.0070.006
Supertonic(RTX4090)0.0050.0020.001
API ElevenLabs Flash v2.50.1330.0770.057
API OpenAI TTS-10.4710.3020.201
API Gemini 2.5 Flash TTS1.0600.6730.541
API Supertone Sona speech 10.3720.2060.163
Open Kokoro0.1440.1240.126
Open NeuTTS Air0.3900.3380.343
附加性能数据(5步推理)

每秒字符数(5步)

系统短文本(59字符)中文本(152字符)长文本(266字符)
Supertonic(M4 pro - CPU)596691850
Supertonic(M4 pro - WebGPU)57011181546
Supertonic(RTX4090)128637576242

实时因子(5步)

系统短文本(59字符)中文本(152字符)长文本(266字符)
Supertonic(M4 pro - CPU)0.0230.0190.018
Supertonic(M4 pro - WebGPU)0.0240.0120.010
Supertonic(RTX4090)0.0110.0040.002

许可证

本项目的示例代码基于 MIT 许可证发布。详情参见 LICENSE。

随附模型基于 OpenRAIL-M 许可证发布。详情参见 LICENSE 文件。

本模型使用 PyTorch 进行训练,PyTorch 基于 BSD 3-Clause 许可证授权,但不随本项目一同分发。详情参见 LICENSE。

Copyright (c) 2025 Supertone Inc.