Irodori-TTS-500M-v3 是一款基于修正流扩散Transformer(RF-DiT)架构的日语文本转语音模型。其架构和训练设计在很大程度上借鉴了 Echo-TTS,以连续潜变量作为生成目标。该模型支持通过参考音频进行零样本语音克隆。
此模型的一大特色是基于表情符号的风格与音效控制——通过在输入文本中插入特定表情符号,您可以控制生成音频中的说话风格、情感乃至音效。
EMOJI_ANNOTATIONS.md。此版本相较于之前的 v2 模型有多项重大改进:
该模型(约5亿参数)由四个主要组件构成:
音频通过Aratako/Semantic-DACVAE-Japanese-32dim编解码器(32维)表示为连续的latent序列,可实现高质量48kHz波形重建。
基础日语文本转语音生成(无需参考音频)。
| 案例 | 文本 | 生成音频 |
|---|---|---|
| 样本1 | "お電話ありがとうございます。ただいま電話が大変混み合っております。恐れ入りますが、発信音のあとに、ご用件をお話しください。" | |
| 样本2 | "その森には、古い言い伝えがありました。月が最も高く昇る夜、静かに耳を澄ませば、風の歌声が聞こえるというのです。私は半信半疑でしたが、その夜、確かに誰かが私を呼ぶ声を聞いたのです。" |
使用表情符号控制说话风格和效果的示例。支持的完整表情符号列表,请参见EMOJI_ANNOTATIONS.md。
| 案例 | 文本(含表情符号) | 生成音频 |
|---|---|---|
| 样本1 | なーに、どうしたの?…え?もっと近づいてほしい?…👂😮💨👂😮💨こういうのが好きなんだ? | |
| 样本2 | うぅ…😭そんなに酷いこと、言わないで…😭 | |
| 样本3 | 🤧🤧ごめんね、風邪引いちゃってて🤧…大丈夫、ただの風邪だからすぐ治るよ🥺 |
从参考音频片段克隆声音的示例。
| 案例 | 参考音频 | 生成音频 |
|---|---|---|
| 示例 1 | ||
| 示例 2 |
有关推理代码、安装说明和训练脚本,请参考 GitHub 仓库:
该模型在一个扩展的高质量日语语音数据集上进行训练。为实现基于表情符号的风格控制,训练文本中添加了表情符号标注。这些标注是使用基于 Qwen/Qwen3-Omni-30B-A3B-Instruct 微调的模型自动生成和标记的。
本模型以 MIT 许可证发布。
除许可条款外,还需遵守以下伦理限制:
本项目基于以下成果构建:
我们还要特别感谢 Respair 提供的表情符号标注功能灵感,以及 gabrielclark3330 对本项目的支持。
如果您在研究或项目中使用 Irodori-TTS-v3,请按以下方式引用:
@misc{irodori-tts-v3,
author = {Chihiro Arata},
title = {Irodori-TTS: A Flow Matching-based Text-to-Speech Model with Emoji-driven Style Control},
year = {2026},
publisher = {Hugging Face},
journal = {Hugging Face repository},
howpublished = {\url{https://huggingface.co/Aratako/Irodori-TTS-500M-v3}}
}