MOSS-TTS 系列

概述

MOSS‑TTS 系列是由MOSI.AI与OpenMOSS团队联合推出的开源语音与声音生成模型系列。该系列专为高保真、高表现力及复杂真实场景设计，覆盖稳定长语音、多说话人对话、声音/角色设计、环境音效及实时流式TTS等应用场景。

论文信息

本模型基于以下论文的研究成果：MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models。

介绍

当一段音频需要听起来像真人、每个字发音准确、不同内容间切换说话风格、长时间（数十分钟）保持稳定，并支持对话、角色扮演和实时交互时，单一的TTS模型往往难以满足需求。MOSS‑TTS 系列将工作流拆分为五个可投入生产的模型，这些模型既可独立使用，也可组合成完整的处理 pipeline。

MOSS‑TTS：MOSS-TTS 是旗舰级生产型TTS基础模型，核心功能包括高保真零样本声音克隆、可控长语音合成、精准发音以及多语言/语码转换语音生成。它是大规模旁白、配音及语音驱动产品的核心引擎。
MOSS‑TTSD：MOSS-TTSD 是生产级长对话模型，支持大规模、富表现力的多说话人对话音频生成。它具备长时连续性、话轮转换控制能力，以及基于短参考音频的零样本声音克隆功能，适用于播客、有声书、解说、配音及娱乐对话场景。
MOSS‑VoiceGenerator：MOSS-VoiceGenerator 是开源声音设计模型，无需参考音频，可直接根据自由文本描述创建说话人音色。它集音色设计、风格控制和内容合成为一体，既可独立使用，也可作为下游TTS的声音设计层。
MOSS‑SoundEffect：MOSS-SoundEffect 是高保真文本到声音模型，覆盖广泛的音效类别，支持可控时长，适用于实际内容生产。它能根据文本提示生成稳定的音频，涵盖环境音、城市场景、生物声音、人类动作及类音乐片段，可应用于影视、游戏、互动媒体及数据合成领域。
MOSS‑TTS‑Realtime：MOSS-TTS-Realtime 是上下文感知的多轮流式TTS模型，专为实时语音交互代理设计。通过同时对对话历史文本和用户先前声学特征进行条件建模，它能实现低延迟合成，并在多轮对话中保持语音响应的连贯性和一致性。

已发布模型

模型	架构	大小	模型卡片	Hugging Face
MOSS-TTS	MossTTSDelay	8B	moss_tts_model_card.md	🤗 Huggingface
	MossTTSLocal	1.7B	moss_tts_model_card.md	🤗 Huggingface
MOSS‑TTSD‑V1.0	MossTTSDelay	8B	moss_ttsd_model_card.md	🤗 Huggingface
MOSS‑VoiceGenerator	MossTTSDelay	1.7B	moss_voice_generator_model_card.md	🤗 Huggingface
MOSS‑SoundEffect	MossTTSDelay	8B	moss_sound_effect_model_card.md	🤗 Huggingface
MOSS‑TTS‑Realtime	MossTTSRealtime	1.7B	moss_tts_realtime_model_card.md	🤗 Huggingface

支持语言

MOSS-TTS、MOSS-TTSD 和 MOSS-TTS-Realtime 当前支持 20 种语言：

语言	代码	旗帜	语言	代码	旗帜	语言	代码	旗帜
中文	zh	🇨🇳	英语	en	🇺🇸	德语	de	🇩🇪
西班牙语	es	🇪🇸	法语	fr	🇫🇷	日语	ja	🇯🇵
意大利语	it	🇮🇹	希伯来语	he	🇮🇱	韩语	ko	🇰🇷
俄语	ru	🇷🇺	波斯语（法尔斯语）	fa	🇮🇷	阿拉伯语	ar	🇸🇦
波兰语	pl	🇵🇱	葡萄牙语	pt	🇵🇹	捷克语	cs	🇨🇿
丹麦语	da	🇩🇰	瑞典语	sv	🇸🇪	匈牙利语	hu	🇭🇺
希腊语	el	🇬🇷	土耳其语	tr	🇹🇷

MOSS-TTS-Realtime

1. 概述

1.1 TTS 家族定位

MOSS-TTS-Realtime 是 MOSS TTS 家族中的一款高性能实时语音合成模型。它专为交互式语音代理设计，可在多轮对话中实现低延迟、连续的语音生成。与传统流式 TTS 系统孤立合成每个响应不同，MOSS-TTS-Realtime 通过将语音生成基于前序轮次的文本和声学信息进行条件控制，原生建模对话上下文。通过将多轮上下文感知与增量流式合成紧密结合，它能生成自然、连贯且语音一致的音频响应，为实时应用实现流畅且类人的口语交互。

核心能力

上下文感知与情感化语音生成：通过对多轮对话中的文本和声学上下文进行建模，生成富有情感且连贯的语音。
高保真语音克隆与多轮一致性：实现极高的语音相似度，同时在多轮对话中保持稳定的说话人身份一致性。
长上下文支持：支持最长 32K 的上下文长度（约 40 分钟），可在长时间对话中实现稳定一致的语音生成。
高拟人化语音与自然韵律：基于超过 250 万小时的单说话人语音以及 100 多万小时的双说话人和多说话人对话数据训练，具备高度自然的韵律和强烈的类人表现力。
多语言语音支持：除中文和英文外，还支持韩语、日语、德语、法语等 10 余种语言，可跨语言实现一致且富有表现力的语音。

1.2 模型架构

2. 快速开始

2.1 环境搭建

为避免依赖冲突，我们建议使用一个干净、隔离的 Python 环境，并确保安装 Transformers 5.0.0。

conda create -n moss-tts python=3.12 -y
conda activate moss-tts

安装所有所需的依赖项：

git clone https://github.com/OpenMOSS/MOSS-TTS.git
cd MOSS-TTS
pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e .

2.2 使用方法

详细的使用说明和示例请参考以下 GitHub 仓库：

👉 使用指南：
https://github.com/OpenMOSS/MOSS-TTS/blob/main/docs/moss_tts_realtime_model_card.md

引用

如果您在论文中使用了本代码或研究成果，请按以下格式引用我们的工作：

@misc{gong2026mossaudiotokenizerscalingaudiotokenizers,
      title={MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models}, 
      author={Yitian Gong and Kuangwei Chen and Zhaoye Fei and Xiaogui Yang and Ke Chen and Yang Wang and Kexin Huang and Mingshu Chen and Ruixiao Li and Qingyuan Cheng and Shimin Li and Xipeng Qiu},
      year={2026},
      eprint={2602.10934},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2602.10934}, 
}