Kokoro 是一款拥有 8200 万参数的开源权重 TTS 模型。尽管架构轻量,但其音质可与更大规模的模型相媲美,同时速度显著更快,成本效益也更高。凭借 Apache 许可的权重,Kokoro 可部署于从生产环境到个人项目的各种场景。
🐈 GitHub:https://github.com/hexgrad/kokoro
🚀 演示:https://hf.co/spaces/hexgrad/Kokoro-TTS
[!NOTE] 截至 2025 年 4 月,通过 API 使用 Kokoro 的市场费率为每百万字符文本输入低于 1 美元,或每小时音频输出低于 0.06 美元。(平均而言,1000 字符的输入约产生 1 分钟的输出。)来源:ArtificialAnalysis/Replicate 为每百万字符 65 美分 和 DeepInfra 为每百万字符 80 美分。
这是一个采用 Apache 许可的模型,Kokoro 已被部署到众多项目和商业 API 中。我们欢迎将该模型部署到实际用例中。
[!CAUTION] 诸如 kokorottsai_com(快照:https://archive.ph/nRRnk)和 kokorotts_net(快照:https://archive.ph/60opa)之类的虚假网站很可能是打着热门模型旗号的诈骗网站。
任何根域名中包含 "kokoro" 的网站(例如 kokorottsai_com、kokorotts_net)均非本模型页面或其作者所有,也不与之相关联,任何暗示其相关的行为均为危险信号。
| 模型 | 发布时间 | 训练数据 | 语言及语音 | SHA256 |
|---|---|---|---|---|
| v1.0 | 2025年1月27日 | 数百小时 | 8种语言及54种语音 | 496dba11 |
| v0.19 | 2024年12月25日 | 不足100小时 | 1种语言及10种语音 | 3b0c392f |
| 训练成本 | v0.19 | v1.0 | 总计 |
|---|---|---|---|
| A100 80GB GPU小时数 | 500 | 500 | 1000 |
| 平均时薪 | $0.80/小时 | $1.20/小时 | $1/小时 |
| 美元成本 | $400 | $600 | $1000 |
您可以在 Google Colab 上运行此基础单元。聆听示例。有关更多语言和详细信息,请参阅 高级用法。
!pip install -q kokoro>=0.9.2 soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
from kokoro import KPipeline
from IPython.display import display, Audio
import soundfile as sf
import torch
pipeline = KPipeline(lang_code='a')
text = '''
[Kokoro](/kˈOkəɹO/) is an open-weight TTS model with 82 million parameters. Despite its lightweight architecture, it delivers comparable quality to larger models while being significantly faster and more cost-efficient. With Apache-licensed weights, [Kokoro](/kˈOkəɹO/) can be deployed anywhere from production environments to personal projects.
'''
generator = pipeline(text, voice='af_heart')
for i, (gs, ps, audio) in enumerate(generator):
print(i, gs, ps)
display(Audio(data=audio, rate=24000, autoplay=i==0))
sf.write(f'{i}.wav', audio, 24000)在底层实现中,kokoro 使用了 misaki——一个 G2P 库,其代码托管于 https://github.com/hexgrad/misaki。
架构:
架构设计: Li 等人,详见 https://github.com/yl4579/StyleTTS2
训练人员: Discord 用户 @rzvzn
支持语言: 多种
模型 SHA256 哈希值: 496dba118d1a58f5f3db2efc88dbdc216e0483fc89fe6e47ee1f2c53f18ad1e4
数据: Kokoro 的训练数据完全来源于允许使用/无版权的音频数据及 IPA 音素标签。允许使用/无版权音频包括:
数据集总大小: 数百小时音频
总训练成本: 使用 A100 80GB 显存,约 1000 小时/1000 美元
以下采用 CC BY 许可的音频是 Kokoro v1.0 训练数据集的一部分。
| 音频数据 | 使用时长 | 许可协议 | 加入训练集版本/时间 |
|---|---|---|---|
Koniwa tnc | <1小时 | CC BY 3.0 | v0.19 / 2024年11月22日 |
| SIWIS | <11小时 | CC BY 4.0 | v0.19 / 2024年11月22日 |
