MOSS‑TTS 系列是由MOSI.AI与OpenMOSS团队联合推出的开源语音与声音生成模型系列。该系列专为高保真、高表现力及复杂真实场景设计,覆盖稳定长语音、多说话人对话、声音/角色设计、环境音效及实时流式TTS等应用场景。
本模型基于以下论文的研究成果:MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models。
当一段音频需要听起来像真人、每个字发音准确、不同内容间切换说话风格、长时间(数十分钟)保持稳定,并支持对话、角色扮演和实时交互时,单一的TTS模型往往难以满足需求。MOSS‑TTS 系列将工作流拆分为五个可投入生产的模型,这些模型既可独立使用,也可组合成完整的处理 pipeline。
| 模型 | 架构 | 大小 | 模型卡片 | Hugging Face |
|---|---|---|---|---|
| MOSS-TTS | MossTTSDelay | 8B | moss_tts_model_card.md | 🤗 Huggingface |
| MossTTSLocal | 1.7B | moss_tts_model_card.md | 🤗 Huggingface | |
| MOSS‑TTSD‑V1.0 | MossTTSDelay | 8B | moss_ttsd_model_card.md | 🤗 Huggingface |
| MOSS‑VoiceGenerator | MossTTSDelay | 1.7B | moss_voice_generator_model_card.md | 🤗 Huggingface |
| MOSS‑SoundEffect | MossTTSDelay | 8B | moss_sound_effect_model_card.md | 🤗 Huggingface |
| MOSS‑TTS‑Realtime | MossTTSRealtime | 1.7B | moss_tts_realtime_model_card.md | 🤗 Huggingface |
MOSS-TTS、MOSS-TTSD 和 MOSS-TTS-Realtime 当前支持 20 种语言:
| 语言 | 代码 | 旗帜 | 语言 | 代码 | 旗帜 | 语言 | 代码 | 旗帜 |
|---|---|---|---|---|---|---|---|---|
| 中文 | zh | 🇨🇳 | 英语 | en | 🇺🇸 | 德语 | de | 🇩🇪 |
| 西班牙语 | es | 🇪🇸 | 法语 | fr | 🇫🇷 | 日语 | ja | 🇯🇵 |
| 意大利语 | it | 🇮🇹 | 希伯来语 | he | 🇮🇱 | 韩语 | ko | 🇰🇷 |
| 俄语 | ru | 🇷🇺 | 波斯语(法尔斯语) | fa | 🇮🇷 | 阿拉伯语 | ar | 🇸🇦 |
| 波兰语 | pl | 🇵🇱 | 葡萄牙语 | pt | 🇵🇹 | 捷克语 | cs | 🇨🇿 |
| 丹麦语 | da | 🇩🇰 | 瑞典语 | sv | 🇸🇪 | 匈牙利语 | hu | 🇭🇺 |
| 希腊语 | el | 🇬🇷 | 土耳其语 | tr | 🇹🇷 |
MOSS-TTS-Realtime 是 MOSS TTS 家族中的一款高性能实时语音合成模型。它专为交互式语音代理设计,可在多轮对话中实现低延迟、连续的语音生成。与传统流式 TTS 系统孤立合成每个响应不同,MOSS-TTS-Realtime 通过将语音生成基于前序轮次的文本和声学信息进行条件控制,原生建模对话上下文。通过将多轮上下文感知与增量流式合成紧密结合,它能生成自然、连贯且语音一致的音频响应,为实时应用实现流畅且类人的口语交互。
核心能力
上下文感知与情感化语音生成:通过对多轮对话中的文本和声学上下文进行建模,生成富有情感且连贯的语音。
高保真语音克隆与多轮一致性:实现极高的语音相似度,同时在多轮对话中保持稳定的说话人身份一致性。
长上下文支持:支持最长 32K 的上下文长度(约 40 分钟),可在长时间对话中实现稳定一致的语音生成。
高拟人化语音与自然韵律:基于超过 250 万小时的单说话人语音以及 100 多万小时的双说话人和多说话人对话数据训练,具备高度自然的韵律和强烈的类人表现力。
多语言语音支持:除中文和英文外,还支持韩语、日语、德语、法语等 10 余种语言,可跨语言实现一致且富有表现力的语音。
为避免依赖冲突,我们建议使用一个干净、隔离的 Python 环境,并确保安装 Transformers 5.0.0。
conda create -n moss-tts python=3.12 -y
conda activate moss-tts安装所有所需的依赖项:
git clone https://github.com/OpenMOSS/MOSS-TTS.git
cd MOSS-TTS
pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e .详细的使用说明和示例请参考以下 GitHub 仓库:
👉 使用指南:
https://github.com/OpenMOSS/MOSS-TTS/blob/main/docs/moss_tts_realtime_model_card.md
如果您在论文中使用了本代码或研究成果,请按以下格式引用我们的工作:
@misc{gong2026mossaudiotokenizerscalingaudiotokenizers,
title={MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models},
author={Yitian Gong and Kuangwei Chen and Zhaoye Fei and Xiaogui Yang and Ke Chen and Yang Wang and Kexin Huang and Mingshu Chen and Ruixiao Li and Qingyuan Cheng and Shimin Li and Xipeng Qiu},
year={2026},
eprint={2602.10934},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2602.10934},
}