HuggingFace镜像/sarashina2.2-tts
模型介绍文件和版本分析
下载使用量0

sarashina2.2-tts

GitHub Demo Paper

sarashina2.2-tts 是由 SB Intuitions 开发的、以日语为中心的文本转语音系统,其构建于大型语言模型之上。该系统支持日语和英语,能在多种说话风格中实现高发音准确度、自然度和稳定性,并支持零样本语音生成。

亮点

  • 🇯🇵 日语为中心:专门针对日语进行设计和优化,广泛覆盖现实世界使用场景。
  • 🎯 高准确度:通过大规模端到端训练,实现对日语文本的高发音准确度。
  • 🔒 负责任的训练数据来源:仅使用合法获取且经过适当授权的语音数据进行训练。
  • 🎙️ 零样本语音生成:通过一段简短的参考音频片段,即可再现说话人的声音、说话风格和声学特征。
  • 🔊 自然且富有表现力:生成高度自然的语音,质量稳定,支持多种说话风格,包括叙述、广播、对话和客户服务。
  • 🌐 双语支持:同时支持日语和英语的文本转语音合成。

训练数据

本模型的训练数据来源于合法购买的音频资源、公共语音档案以及依据适用国内法律收集的数据。在数据收集过程中,我们严格遵守 robots.txt 指令和服务条款,确保数据获取的正当性。

使用方法

有关安装说明、Docker 设置和详细使用方法,请参考 GitHub 仓库。

音频示例

以下示例展示了sarashina2.2-tts的核心功能:

  • 多样说话风格:从参考音频中迁移多种说话风格,包括叙述、广播、对话、客服等。
  • 零样本语音克隆:仅需几秒参考语音即可重现说话人的声音,无需微调。
  • 跨语言生成:在日语和英语之间保持说话人身份和说话风格的一致性。
  • 语码转换:在单个 utterance 中自然处理日英混合句子。

快速示例

零样本说话人适配
東京から金沢までは新幹線を利用するのが便利で、所要時間は約2時間半です。
参考音频生成音频
多样说话风格
お待たせいたしました。お客様のSoftBank光のご契約状況が確認できました。あわせて、Y!mobileとのおうち割 光セットの適用状況をお調べしたいのですが、現在お使いの携帯電話番号をお伺いしてもよろしいでしょうか?
参考音频生成音频
英语生成
There is something remarkable about the way language shapes the way we think. A single phrase, spoken in the right tone, can carry emotions that words alone cannot express.
参考音频生成音频

多样说话风格

叙述
午前2時。東京・下町の一角。静まり返った住宅街に、リズミカルに包丁を叩く音が響く。店主の佐藤は、この場所で40年、変わらずにスープを炊き続けてきた。
参考音频生成音频
广播
国土交通省は15日、過疎地域や山間部における配送ルートの認可プロセスを簡略化する新指針を発表した。これにより、従来は数ヶ月を要していた飛行許可の申請期間が大幅に短縮される見通しだ。
参考音频生成音频
superscript:
对话
なるほど。じゃーちょっとすいませんそのー最近ハマってることについて、もう少しだけお話していただいてもいいですか?
参考音频生成音频
superscript:
客服
お待たせいたしました。ご契約状況を確認したのですが、一点だけ補足で伺わせてください。ご登録いただいているお電話番号の下4桁、もしくはご生年月日を念のためお伺いしてもよろしいでしょうか?
参考音频生成音频
落语
「こんな安月給でやってられっかい、仕事なんかもう辞めたらあ!」て酒場で管巻いとったおっさんがな。翌朝になったら、誰よりもはよ店出て、鼻歌まじりに丁稚使いよる。
参考音频生成音频

零样本语音生成

東京から金沢までは新幹線を利用するのが便利で、所要時間は約2時間半です。
说话人参考音频生成音频
Speaker A (Male)
Speaker B (Female)
Speaker C (Female)
Speaker D (Senior Female)
The bullet train from Tokyo to Kanazawa takes approximately two and a half hours, making it the most convenient option for travel.
说话人参考音频生成音频
Speaker E (Female)
Speaker F (Male)

跨语言零样本

英语说话人生成日语
東京から金沢までは新幹線を利用するのが便利で、所要時間は約2時間半です。
参考音频生成音频
日语说话人生成英语
The bullet train from Tokyo to Kanazawa takes approximately two and a half hours, making it the most convenient option for travel.
参考音频生成音频

语码转换

日英混合句子
最新のAI technologies、特にlarge language modelsは、音声合成の分野に大きなRevolutionをもたらしています。
参考音频生成音频

致谢

本模型基于以下开源项目的代码和模型构建或整合而成:

  • CosyVoice
  • HiFT-GAN
  • 3D-Speaker

许可协议

本模型采用Sarashina Model NonCommercial License Agreement进行许可。

如您有兴趣将本模型用于商业用途,欢迎通过我们的联系页面与我们取得联系。

本页面提供的音频仅用于研究目的,不得进行再分发或用于商业用途。