HuggingFace镜像/Kokoro-82M
模型介绍文件和版本分析
下载使用量0

Kokoro 是一款拥有 8200 万参数的开源权重 TTS 模型。尽管架构轻量,但其音质可与更大规模的模型相媲美,同时速度显著更快,成本效益也更高。凭借 Apache 许可的权重,Kokoro 可部署于从生产环境到个人项目的各种场景。

🐈 GitHub:https://github.com/hexgrad/kokoro

🚀 演示:https://hf.co/spaces/hexgrad/Kokoro-TTS

[!NOTE] 截至 2025 年 4 月,通过 API 使用 Kokoro 的市场费率为每百万字符文本输入低于 1 美元,或每小时音频输出低于 0.06 美元。(平均而言,1000 字符的输入约产生 1 分钟的输出。)来源:ArtificialAnalysis/Replicate 为每百万字符 65 美分 和 DeepInfra 为每百万字符 80 美分。

这是一个采用 Apache 许可的模型,Kokoro 已被部署到众多项目和商业 API 中。我们欢迎将该模型部署到实际用例中。

[!CAUTION] 诸如 kokorottsai_com(快照:https://archive.ph/nRRnk)和 kokorotts_net(快照:https://archive.ph/60opa)之类的虚假网站很可能是打着热门模型旗号的诈骗网站。

任何根域名中包含 "kokoro" 的网站(例如 kokorottsai_com、kokorotts_net)均非本模型页面或其作者所有,也不与之相关联,任何暗示其相关的行为均为危险信号。

  • 版本发布
  • 使用方法
  • EVAL.md ↗️
  • SAMPLES.md ↗️
  • VOICES.md ↗️
  • 模型概况
  • 训练详情
  • 知识共享署名
  • 致谢

版本发布

模型发布时间训练数据语言及语音SHA256
v1.02025年1月27日数百小时8种语言及54种语音496dba11
v0.192024年12月25日不足100小时1种语言及10种语音3b0c392f
训练成本v0.19v1.0总计
A100 80GB GPU小时数5005001000
平均时薪$0.80/小时$1.20/小时$1/小时
美元成本$400$600$1000

使用方法

您可以在 Google Colab 上运行此基础单元。聆听示例。有关更多语言和详细信息,请参阅 高级用法。

!pip install -q kokoro>=0.9.2 soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
from kokoro import KPipeline
from IPython.display import display, Audio
import soundfile as sf
import torch
pipeline = KPipeline(lang_code='a')
text = '''
[Kokoro](/kˈOkəɹO/) is an open-weight TTS model with 82 million parameters. Despite its lightweight architecture, it delivers comparable quality to larger models while being significantly faster and more cost-efficient. With Apache-licensed weights, [Kokoro](/kˈOkəɹO/) can be deployed anywhere from production environments to personal projects.
'''
generator = pipeline(text, voice='af_heart')
for i, (gs, ps, audio) in enumerate(generator):
    print(i, gs, ps)
    display(Audio(data=audio, rate=24000, autoplay=i==0))
    sf.write(f'{i}.wav', audio, 24000)

在底层实现中,kokoro 使用了 misaki——一个 G2P 库,其代码托管于 https://github.com/hexgrad/misaki。

模型概况

架构:

  • StyleTTS 2:https://arxiv.org/abs/2306.07691
  • ISTFTNet:https://arxiv.org/abs/2203.02395
  • 仅包含解码器:无扩散模块,未发布编码器

架构设计: Li 等人,详见 https://github.com/yl4579/StyleTTS2

训练人员: Discord 用户 @rzvzn

支持语言: 多种

模型 SHA256 哈希值: 496dba118d1a58f5f3db2efc88dbdc216e0483fc89fe6e47ee1f2c53f18ad1e4

训练详情

数据: Kokoro 的训练数据完全来源于允许使用/无版权的音频数据及 IPA 音素标签。允许使用/无版权音频包括:

  • 公有领域音频
  • 采用 Apache、MIT 等许可协议的音频
  • 由大型提供商的闭源[2]TTS 模型生成的合成音频[1]
    [1] https://copyright.gov/ai/ai_policy_guidance.pdf
    [2] 不包含来自开源 TTS 模型或“自定义语音克隆”的合成音频

数据集总大小: 数百小时音频

总训练成本: 使用 A100 80GB 显存,约 1000 小时/1000 美元

知识共享署名说明

以下采用 CC BY 许可的音频是 Kokoro v1.0 训练数据集的一部分。

音频数据使用时长许可协议加入训练集版本/时间
Koniwa tnc<1小时CC BY 3.0v0.19 / 2024年11月22日
SIWIS<11小时CC BY 4.0v0.19 / 2024年11月22日

致谢

  • 🛠️ @yl4579 设计了 StyleTTS 2 架构。
  • 🏆 @Pendrokar 将 Kokoro 列为 TTS Spaces Arena 的参赛模型。
  • 📊 感谢所有提供合成训练数据的贡献者。
  • ❤️ 特别感谢所有计算资源赞助商。
  • 👾 Discord 服务器:https://discord.gg/QuGxSWBfQy
  • 🪽 “Kokoro” 是日语词汇,意为“心”或“精神”。它也是《终结者》系列中一个人工智能的名称。
kokoro