Irodori-TTS-500M-v2 是一个基于修正流扩散Transformer(RF-DiT)架构的日语文本转语音模型。其架构和训练设计在很大程度上遵循了 Echo-TTS,将连续潜变量作为生成目标。它支持从参考音频进行零样本声音克隆。
该模型的一个独特功能是基于表情符号的风格和音效控制——通过在输入文本中插入特定表情符号,您可以控制生成音频中的说话风格、情感甚至音效。
EMOJI_ANNOTATIONS.md。此版本相比原始 Irodori-TTS-500M 带来了多项改进:
该模型(约5亿参数)由三个主要组件构成:
音频通过Aratako/Semantic-DACVAE-Japanese-32dim编解码器(32维)表示为连续 latent 序列,可实现高质量48kHz波形重建。
基本的日语文本转语音生成(无参考音频)。
| 案例 | 文本 | 生成音频 |
|---|---|---|
| 样本1 | "お電話ありがとうございます。ただいま電話が大変混み合っております。恐れ入りますが、発信音のあとに、ご用件をお話しください。" | |
| 样本2 | "その森には、古い言い伝えがありました。月が最も高く昇る夜、静かに耳を澄ませば、風の歌声が聞こえるというのです。私は半信半疑でしたが、その夜、確かに誰かが私を呼ぶ声を聞いたのです。" |
使用表情符号控制说话风格和效果的示例。支持的完整表情符号列表,请参见EMOJI_ANNOTATIONS.md。
| 案例 | 文本(含表情符号) | 生成音频 |
|---|---|---|
| 样本1 | なーに、どうしたの?…え?もっと近づいてほしい?…👂😮💨👂😮💨こういうのが好きなんだ? | |
| 样本2 | うぅ…😭そんなに酷いこと、言わないで…😭 | |
| 样本3 | 🤧🤧ごめんね、風邪引いちゃってて🤧…大丈夫、ただの風邪だからすぐ治るよ🥺 |
从参考音频片段克隆声音的示例。
| 案例 | 参考音频 | 生成音频 |
|---|---|---|
| 示例 1 | ||
| 示例 2 |
有关推理代码、安装说明和训练脚本,请参考 GitHub 仓库:
该模型在高质量日语语音数据集上进行训练,v2 版本中对数据过滤进行了优化。为实现基于表情符号的风格控制,训练文本中添加了表情符号标注。这些标注是使用基于 Qwen/Qwen3-Omni-30B-A3B-Instruct 的微调模型自动生成和标记的。
本模型以 MIT 许可发布。
除许可条款外,还应遵守以下伦理限制:
本项目基于以下成果构建:
我们还要特别感谢**Respair** 为表情符号标注功能提供的灵感。
如果您在研究或项目中使用Irodori-TTS-v2,请按以下方式引用:
@misc{irodori-tts-v2,
author = {Chihiro Arata},
title = {Irodori-TTS: A Flow Matching-based Text-to-Speech Model with Emoji-driven Style Control},
year = {2026},
publisher = {Hugging Face},
journal = {Hugging Face repository},
howpublished = {\url{https://huggingface.co/Aratako/Irodori-TTS-500M-v2}}
}| 组件 | 版本 |
|---|---|
PyTorch | 2.6.0 |
torch-npu | 2.9.0 |
CANN | 8.5.1 |
transformers | 4.49.0 |
python inference.py \
--checkpoint /path/to/model.safetensors \
--text "こんにちは、音声合成のテストです。" \
--device npu \
--num-steps 20 \
--output-wav output.wavNPU 与 CPU 前向传播的相对误差 < 0.001%(阈值为 1%),输出张量范数保持一致。
| 阶段 | NPU | CPU | 加速比 |
|---|---|---|---|
| RF 采样 (20步) | 2,272 ms | 1,016,744 ms | 447倍 |
| 潜空间解码 | 12,937 ms | 320,478 ms | 25倍 |
| 总计 | 15.2 秒 | 1,337 秒 | 88倍 |
通过 eval/eval_accuracy.py 和 eval/eval_performance.py 可复现精度与性能评测结果。