Irodori-TTS-500M-v3

Irodori-TTS-500M-v3 是一款基于修正流扩散Transformer（RF-DiT）架构的日语文本转语音模型。其架构和训练设计在很大程度上借鉴了 Echo-TTS，以连续潜变量作为生成目标。该模型支持通过参考音频进行零样本语音克隆。

此模型的一大特色是基于表情符号的风格与音效控制——通过在输入文本中插入特定表情符号，您可以控制生成音频中的说话风格、情感乃至音效。

🌟 主要特性

流匹配文本转语音： 在连续DACVAE潜变量上使用修正流扩散Transformer，实现高质量日语语音合成。
- 语音克隆： 通过简短的参考音频片段实现零样本语音克隆。
- 基于表情符号的风格控制： 直接在输入文本中嵌入表情符号，以控制说话风格、情感和音效。完整的支持表情符号列表及其效果，请参见 EMOJI_ANNOTATIONS.md。

✨ v3 版本新特性

此版本相较于之前的 v2 模型有多项重大改进：

变长训练与时长预测器： 从定长训练过渡到变长训练，并引入了时长预测器。这提高了训练效率，并改善了推理时的实时因子（RTF）。
- 扩展训练数据： 模型在更大规模的数据集上进行训练，从而实现了更自然的语音合成，并提升了在各种说话风格下的稳健性。
- 集成水印功能： 集成了 SilentCipher，可直接在生成的输出中应用稳健、不可见的音频水印，以促进负责任的AI使用。

🏗️ 模型架构

该模型（约5亿参数）由四个主要组件构成：

文本编码器（Text Encoder）：基于llm-jp/llm-jp-3-150m初始化的令牌嵌入，其后是带有RoPE的自注意力+SwiGLU transformer层。
参考 latent 编码器（Reference Latent Encoder）：通过自注意力+SwiGLU层对分块的参考音频latent进行编码，以实现说话人/风格条件控制。
扩散 Transformer（Diffusion Transformer）：包含Low-Rank AdaLN（时间步条件自适应层归一化）、half-RoPE和SwiGLU MLP的联合注意力DiT块。
时长预测器（Duration Predictor）：使用堆叠的SwiGLU MLP块，根据编码后的文本和说话人条件预测音频时长。

音频通过Aratako/Semantic-DACVAE-Japanese-32dim编解码器（32维）表示为连续的latent序列，可实现高质量48kHz波形重建。

🎧 音频样本

1. 标准TTS

基础日语文本转语音生成（无需参考音频）。

案例	文本	生成音频
样本1	"お電話ありがとうございます。ただいま電話が大変混み合っております。恐れ入りますが、発信音のあとに、ご用件をお話しください。"
样本2	"その森には、古い言い伝えがありました。月が最も高く昇る夜、静かに耳を澄ませば、風の歌声が聞こえるというのです。私は半信半疑でしたが、その夜、確かに誰かが私を呼ぶ声を聞いたのです。"

2. 表情符号注解控制

使用表情符号控制说话风格和效果的示例。支持的完整表情符号列表，请参见EMOJI_ANNOTATIONS.md。

案例	文本（含表情符号）	生成音频
样本1	なーに、どうしたの？…え？もっと近づいてほしい？…👂😮‍💨👂😮‍💨こういうのが好きなんだ？
样本2	うぅ…😭そんなに酷いこと、言わないで…😭
样本3	🤧🤧ごめんね、風邪引いちゃってて🤧…大丈夫、ただの風邪だからすぐ治るよ🥺

3. 声音克隆（零样本）

从参考音频片段克隆声音的示例。

案例	参考音频	生成音频
示例 1
示例 2

🚀 使用方法

有关推理代码、安装说明和训练脚本，请参考 GitHub 仓库：

👉 GitHub: Aratako/Irodori-TTS

📊 训练数据与标注

该模型在一个扩展的高质量日语语音数据集上进行训练。为实现基于表情符号的风格控制，训练文本中添加了表情符号标注。这些标注是使用基于 Qwen/Qwen3-Omni-30B-A3B-Instruct 微调的模型自动生成和标记的。

⚠️ 局限性

仅支持日语：当前模型仅支持日语文本输入。
- 表情符号控制：尽管基于表情符号的风格控制增加了表现力，但其效果可能因上下文而异，并非始终完全一致。
- 音频质量：质量取决于训练数据的特性。对于训练数据中代表性不足的声音或说话风格，性能可能会有所差异。
- 汉字读音准确性：与其他类似规模的 TTS 模型相比，该模型准确读取汉字的能力相对较弱。您可能需要事先将复杂的汉字转换为平假名或片假名。

📜 许可证与伦理限制

许可证

本模型以 MIT 许可证发布。

伦理限制

除许可条款外，还需遵守以下伦理限制：

禁止冒充：未经明确同意，不得使用本模型克隆或冒充任何个人（如配音演员、名人、公众人物）的声音。
禁止虚假信息：不得使用本模型生成旨在误导他人或传播虚假信息的深度伪造内容或合成语音。
语音生成免责声明：当完全基于文本生成语音而不使用参考音频时，生成的语音可能碰巧与真实人物的声音相似。这严格来说是潜在空间内的概率性产物。本模型的训练并非以再现特定个人为目的。
责任免责声明：开发者对本模型的任何误用不承担责任。用户全权负责确保其对生成内容的使用符合其所在司法管辖区的适用法律法规。

🙏 致谢

本项目基于以下成果构建：

Echo-TTS — 架构和训练设计参考
- DACVAE — 音频变分自编码器
- llm-jp/llm-jp-3-150m — 分词器和嵌入权重初始化
- SilentCipher — 音频水印集成

我们还要特别感谢 Respair 提供的表情符号标注功能灵感，以及 gabrielclark3330 对本项目的支持。

🖊️ 引用

如果您在研究或项目中使用 Irodori-TTS-v3，请按以下方式引用：

@misc{irodori-tts-v3,
  author = {Chihiro Arata},
  title = {Irodori-TTS: A Flow Matching-based Text-to-Speech Model with Emoji-driven Style Control},
  year = {2026},
  publisher = {Hugging Face},
  journal = {Hugging Face repository},
  howpublished = {\url{https://huggingface.co/Aratako/Irodori-TTS-500M-v3}}
}