Kokoro-82M:可用于生产环境和个人项目的文本转语音场景，提供高质量语音输出。该项目是8200万参数的开源TTS模型，架构轻量，速度快、成本低，支持多语言和多种语音，Apache许可证允许灵活部署。【此简介由AI生成】

Kokoro 是一款拥有 8200 万参数的开源权重 TTS 模型。尽管架构轻量，但其音质可与更大规模的模型相媲美，同时速度显著更快，成本效益也更高。凭借 Apache 许可的权重，Kokoro 可部署于从生产环境到个人项目的各种场景。

🐈 GitHub：https://github.com/hexgrad/kokoro

🚀 演示：https://hf.co/spaces/hexgrad/Kokoro-TTS

[!NOTE] 截至 2025 年 4 月，通过 API 使用 Kokoro 的市场费率为每百万字符文本输入低于 1 美元，或每小时音频输出低于 0.06 美元。（平均而言，1000 字符的输入约产生 1 分钟的输出。）来源：ArtificialAnalysis/Replicate 为每百万字符 65 美分和 DeepInfra 为每百万字符 80 美分。

这是一个采用 Apache 许可的模型，Kokoro 已被部署到众多项目和商业 API 中。我们欢迎将该模型部署到实际用例中。

[!CAUTION] 诸如 kokorottsai_com（快照：https://archive.ph/nRRnk）和 kokorotts_net（快照：https://archive.ph/60opa）之类的虚假网站很可能是打着热门模型旗号的诈骗网站。

任何根域名中包含 "kokoro" 的网站（例如 kokorottsai_com、kokorotts_net）均非本模型页面或其作者所有，也不与之相关联，任何暗示其相关的行为均为危险信号。

版本发布
使用方法
EVAL.md ↗️
SAMPLES.md ↗️
VOICES.md ↗️
模型概况
训练详情
知识共享署名
致谢

版本发布

模型	发布时间	训练数据	语言及语音	SHA256
v1.0	2025年1月27日	数百小时	8种语言及54种语音	`496dba11`
v0.19	2024年12月25日	不足100小时	1种语言及10种语音	`3b0c392f`

训练成本	v0.19	v1.0	总计
A100 80GB GPU小时数	500	500	1000
平均时薪	$0.80/小时	$1.20/小时	$1/小时
美元成本	$400	$600	$1000

使用方法

您可以在 Google Colab 上运行此基础单元。聆听示例。有关更多语言和详细信息，请参阅高级用法。

!pip install -q kokoro>=0.9.2 soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
from kokoro import KPipeline
from IPython.display import display, Audio
import soundfile as sf
import torch
pipeline = KPipeline(lang_code='a')
text = '''
[Kokoro](/kˈOkəɹO/) is an open-weight TTS model with 82 million parameters. Despite its lightweight architecture, it delivers comparable quality to larger models while being significantly faster and more cost-efficient. With Apache-licensed weights, [Kokoro](/kˈOkəɹO/) can be deployed anywhere from production environments to personal projects.
'''
generator = pipeline(text, voice='af_heart')
for i, (gs, ps, audio) in enumerate(generator):
    print(i, gs, ps)
    display(Audio(data=audio, rate=24000, autoplay=i==0))
    sf.write(f'{i}.wav', audio, 24000)

在底层实现中，kokoro 使用了 misaki——一个 G2P 库，其代码托管于 https://github.com/hexgrad/misaki。

模型概况

架构：

StyleTTS 2：https://arxiv.org/abs/2306.07691
ISTFTNet：https://arxiv.org/abs/2203.02395
仅包含解码器：无扩散模块，未发布编码器

架构设计： Li 等人，详见 https://github.com/yl4579/StyleTTS2

训练人员： Discord 用户 @rzvzn

支持语言： 多种

模型 SHA256 哈希值： 496dba118d1a58f5f3db2efc88dbdc216e0483fc89fe6e47ee1f2c53f18ad1e4

训练详情

数据： Kokoro 的训练数据完全来源于允许使用/无版权的音频数据及 IPA 音素标签。允许使用/无版权音频包括：

公有领域音频
采用 Apache、MIT 等许可协议的音频
由大型提供商的闭源^[2]TTS 模型生成的合成音频^[1]
[1] https://copyright.gov/ai/ai_policy_guidance.pdf
[2] 不包含来自开源 TTS 模型或“自定义语音克隆”的合成音频

数据集总大小： 数百小时音频

总训练成本： 使用 A100 80GB 显存，约 1000 小时/1000 美元

知识共享署名说明

以下采用 CC BY 许可的音频是 Kokoro v1.0 训练数据集的一部分。

音频数据	使用时长	许可协议	加入训练集版本/时间
Koniwa `tnc`	<1小时	CC BY 3.0	v0.19 / 2024年11月22日
SIWIS	<11小时	CC BY 4.0	v0.19 / 2024年11月22日

致谢

🛠️ @yl4579 设计了 StyleTTS 2 架构。
🏆 @Pendrokar 将 Kokoro 列为 TTS Spaces Arena 的参赛模型。
📊 感谢所有提供合成训练数据的贡献者。
❤️ 特别感谢所有计算资源赞助商。
👾 Discord 服务器：https://discord.gg/QuGxSWBfQy
🪽 “Kokoro” 是日语词汇，意为“心”或“精神”。它也是《终结者》系列中一个人工智能的名称。

模型

发布时间

训练数据

语言及语音

SHA256

v1.0

2025年1月27日

数百小时

8种语言及54种语音

496dba11

v0.19

2024年12月25日

不足100小时

1种语言及10种语音

3b0c392f

训练成本

v0.19

v1.0

总计

A100 80GB GPU小时数

500

1000

平均时薪

$0.80/小时

$1.20/小时

$1/小时

美元成本

$400

$600

$1000

!pip install -q kokoro>=0.9.2 soundfile !apt-get -qq -y install espeak-ng > /dev/null 2>&1 from kokoro import KPipeline from IPython.display import display, Audio import soundfile as sf import torch pipeline = KPipeline(lang_code='a') text = ''' [Kokoro](/kˈOkəɹO/) is an open-weight TTS model with 82 million parameters. Despite its lightweight architecture, it delivers comparable quality to larger models while being significantly faster and more cost-efficient. With Apache-licensed weights, [Kokoro](/kˈOkəɹO/) can be deployed anywhere from production environments to personal projects. ''' generator = pipeline(text, voice='af_heart') for i, (gs, ps, audio) in enumerate(generator): print(i, gs, ps) display(Audio(data=audio, rate=24000, autoplay=i==0)) sf.write(f'{i}.wav', audio, 24000)

音频数据

使用时长

许可协议

加入训练集版本/时间

Koniwa tnc

<1小时

CC BY 3.0

v0.19 / 2024年11月22日

SIWIS

<11小时

CC BY 4.0

v0.19 / 2024年11月22日