Irodori-TTS-500M-v2-VoiceDesign 是一款基于修正流扩散Transformer(RF-DiT)架构的日语文本转语音模型。该变体源自基础v2模型,将参考潜变量编码器替换为文本描述编码器。
此模型无需参考音频即可进行语音克隆,而是具备语音设计(Voice Design) 功能——仅通过描述性文本提示(caption),您就能全面控制并生成说话人的声音、情感及说话风格。
此外,该模型保留了基于表情符号的风格与音效控制——通过在输入文本中插入特定表情符号,您可以在生成过程中进一步微调说话风格、情感和音效。
EMOJI_ANNOTATIONS.md。该模型(约5亿参数)由三个主要组件构成:
音频通过Aratako/Semantic-DACVAE-Japanese-32dim编解码器(32维)表示为连续潜变量序列,支持高质量48kHz波形重建。
以下示例展示了如何仅通过描述性文本控制说话人的声音、情感和风格。请注意,相同的输入文本可以以完全不同的方式呈现。
| 文本(输入) | 描述(声音设计) | 生成音频 |
|---|---|---|
| 明日の午後に予定していた会議だけど、急遽来週に延期になったみたい。悪いんだけど、資料の準備は一旦ストップしておいてくれるかな。 | 一位低声女性,难掩烦躁,语气焦急地说着。音质清晰,略带情绪化的语调,透着一丝无奈。 | |
| 明日の午後に予定していた会議だけど、急遽来週に延期になったみたい。悪いんだけど、資料の準備は一旦ストップしておいてくれるかな。 | 希望是稍偏高亢的男性嗓音,带着关切与歉意的温和语气。 | |
| おかしいな、さっきまで確かにここにあったはずなんだけど。誰かが気を利かせて、別の場所に片付けちゃったのかな。 | 一位年轻女性,困惑不解,仿佛在喃喃自语般低语。 | |
| おかしいな、さっきまで確かにここにあったはずなんだけど。誰かが気を利かせて、別の場所に片付けちゃったのかな。 | 一位充满强烈怀疑与不满的成年女性。她显得非常愤怒,特意大声说话以便周围的人能听到。 |
您还可以将声音设计描述与嵌入文本中的表情符号注释相结合。这允许在基础声音设计之上进行更精细的控制,添加特定的情感细微差别、停顿或音效。
| 文本(含表情符号) | 描述(声音设计) | 生成音频 |
|---|---|---|
| これ、昨日からずっと机の上に置きっぱなしになってますよ🤭早く片付けておいてくださいね🫶 | 一位成年男性,边说边笑,语气温和地劝导。听起来从容不迫,语气中还夹杂着一丝无奈。 | |
| これ😠、昨日からずっと机の上に置きっぱなしになってますよ😒早く片付けておいてくださいね😠 | 希望是稍低沉的女性嗓音,带着厌恶感,语气愤怒。说话过程中夹杂着咂舌声,带着强烈的鄙夷感。 |
有关推理代码、安装说明和训练脚本,请参考 GitHub 仓库:
该模型基于高质量的日语语音数据集进行训练。为实现语音设计(Voice Design)功能,训练数据中还添加了描述音频特征的详细文本说明。
表情符号标注和初始文本说明是通过基于 Qwen/Qwen3-Omni-30B-A3B-Instruct 的微调模型生成并标注的。随后,使用 Qwen/Qwen3.5-35B-A3B 对文本说明进行了改写和优化。
本模型以 MIT 许可证发布。
除许可证条款外,还适用以下伦理限制:
本项目基于以下成果构建:
我们还特别感谢 Respair 为表情符号标注功能提供的灵感。
如果您在研究或项目中使用 Irodori-TTS,请按以下方式引用:
@misc{irodori-tts,
author = {Chihiro Arata},
title = {Irodori-TTS: A Flow Matching-based Text-to-Speech Model with Emoji-driven Style Control},
year = {2026},
publisher = {Hugging Face},
journal = {Hugging Face repository},
howpublished = {\url{https://huggingface.co/Aratako/Irodori-TTS-500M-v2-VoiceDesign}}
}| 组件 | 版本 |
|---|---|
PyTorch | 2.6.0 |
torch-npu | 2.9.0 |
CANN | 8.5.1 |
transformers | 4.49.0 |
python inference.py \
--checkpoint /path/to/model.safetensors \
--text "こんにちは、音声合成のテストです。" \
--caption "落ち着いた優しい声で読む" \
--device npu \
--num-steps 20 \
--output-wav output.wavNPU 与 CPU 前向传播相对误差 < 0.001%(阈值 1%)。
| 阶段 | NPU | CPU | 加速比 |
|---|---|---|---|
| RF 采样 (20步) | 2,339 ms | 1,016,744 ms | 435x |
| 潜空间解码 | 12,054 ms | 320,478 ms | 27x |
| 总计 | 14.4 s | 1,337 s | 93x |
使用 eval/eval_accuracy.py 和 eval/eval_performance.py 可复现精度与性能评测。