Irodori-TTS-500M-v2 是一个基于整流流扩散Transformer(RF-DiT)架构的日语文本转语音模型。其架构和训练设计在很大程度上借鉴了 Echo-TTS,以连续潜变量作为生成目标。它支持从参考音频进行零样本声音克隆。
该模型的一大特色是基于表情符号的风格与音效控制——通过在输入文本中插入特定表情符号,您可以控制生成音频中的说话风格、情感乃至音效。
EMOJI_ANNOTATIONS.md。此版本相比原始 Irodori-TTS-500M 带来了多项改进:
该模型(约5亿参数)由三个主要组件构成:
音频通过 Aratako/Semantic-DACVAE-Japanese-32dim 编解码器(32维)表示为连续潜变量序列,可实现高质量 48kHz 波形重建。
基本的日语文本转语音生成(无需参考音频)。
| 案例 | 文本 | 生成音频 |
|---|---|---|
| 样本 1 | "お電話ありがとうございます。ただいま電話が大変混み合っております。恐れ入りますが、発信音のあとに、ご用件をお話しください。" | |
| 样本 2 | "その森には、古い言い伝えがありました。月が最も高く昇る夜、静かに耳を澄ませば、風の歌声が聞こえるというのです。私は半信半疑でしたが、その夜、確かに誰かが私を呼ぶ声を聞いたのです。" |
使用表情符号控制说话风格和效果的示例。支持的表情符号完整列表,请参见 EMOJI_ANNOTATIONS.md。
| 案例 | 文本(含表情符号) | 生成音频 |
|---|---|---|
| 样本 1 | なーに、どうしたの?…え?もっと近づいてほしい?…👂😮💨👂😮💨こういうのが好きなんだ? | |
| 样本 2 | うぅ…😭そんなに酷いこと、言わないで…😭 | |
| 样本 3 | 🤧🤧ごめんね、風邪引いちゃってて🤧…大丈夫、ただの風邪だからすぐ治るよ🥺 |
以下是从参考音频片段克隆声音的示例。
| 案例 | 参考音频 | 生成音频 |
|---|---|---|
| 示例 1 | ||
| 示例 2 |
有关推理代码、安装说明和训练脚本,请参考 GitHub 仓库:
该模型在高质量日语语音数据集上进行训练,v2 版本进一步优化了数据筛选。为实现基于表情符号的风格控制,训练文本中添加了表情符号标注。这些标注是使用基于 Qwen/Qwen3-Omni-30B-A3B-Instruct 微调的模型自动生成和标记的。
本模型基于 MIT 许可证发布。
除许可条款外,还应遵守以下伦理限制:
本项目基于以下成果开发:
我们还要特别感谢 Respair 为表情符号标注功能提供的灵感。
如果您在研究或项目中使用 Irodori-TTS-v2,请按以下方式引用:
@misc{irodori-tts-v2,
author = {Chihiro Arata},
title = {Irodori-TTS: A Flow Matching-based Text-to-Speech Model with Emoji-driven Style Control},
year = {2026},
publisher = {Hugging Face},
journal = {Hugging Face repository},
howpublished = {\url{https://huggingface.co/Aratako/Irodori-TTS-500M-v2}}
}