MOSS-TTS-Nano

MOSS-TTS-Nano 是由 MOSI.AI 与 OpenMOSS 团队联合开发的开源多语言轻量级语音生成模型。该模型仅含0.1B 参数，专为实时语音生成设计，无需 GPU 即可在CPU 上直接运行，部署流程简洁，适用于本地演示、网络服务及轻量化产品集成场景。

新闻动态

2026.4.10：我们发布了MOSS-TTS-Nano。演示空间可在 OpenMOSS-Team/MOSS-TTS-Nano 获取。您也可以在 openmoss.github.io/MOSS-TTS-Nano-Demo/ 查看演示及更多详情。

演示

在线演示：https://openmoss.github.io/MOSS-TTS-Nano-Demo/
Hugging Face 空间：OpenMOSS-Team/MOSS-TTS-Nano

简介

MOSS-TTS-Nano concept

MOSS-TTS-Nano 专注于 TTS 部署中实际应用最关键的部分：小模型体积、低延迟、满足实时产品需求的音质以及简单的本地部署。它采用纯自回归的音频分词器 + 大语言模型（Audio Tokenizer + LLM） pipeline，确保推理流程对终端用户和网页演示用户都友好易用。

主要特性

超小模型体积：仅0.1B 参数
原生音频格式：48 kHz、双声道输出
多语言支持：支持中文、英文及更多语言
纯自回归架构：基于音频分词器 + 大语言模型（Audio Tokenizer + LLM）构建
流式推理：低实时延迟，首段音频生成速度快
CPU 友好：流式生成可在4核 CPU 上运行
长文本支持：支持长输入，具备自动分块声音克隆功能
开源部署：直接支持 python infer.py、python app.py 及打包的命令行工具

支持的语言

MOSS-TTS-Nano 当前支持20种语言：

语言	代码	旗帜	语言	代码	旗帜	语言	代码	旗帜
Chinese	zh	🇨🇳	English	en	🇺🇸	German	de	🇩🇪
Spanish	es	🇪🇸	French	fr	🇫🇷	Japanese	ja	🇯🇵
Italian	it	🇮🇹	Hungarian	hu	🇭🇺	Korean	ko	🇰🇷
Russian	ru	🇷🇺	Persian (Farsi)	fa	🇮🇷	Arabic	ar	🇸🇦
Polish	pl	🇵🇱	Portuguese	pt	🇵🇹	Czech	cs	🇨🇿
Danish	da	🇩🇰	Swedish	sv	🇸🇪	Greek	el	🇬🇷
Turkish	tr	🇹🇷

快速入门

环境设置

我们建议先创建一个干净的 Python 环境，然后以可编辑模式安装项目，这样 moss-tts-nano 命令就能在本地使用了。以下示例特意简化了参数，主要依赖仓库的默认设置。默认情况下，代码会加载 OpenMOSS-Team/MOSS-TTS-Nano 和 OpenMOSS-Team/MOSS-Audio-Tokenizer-Nano。

使用 Conda

conda create -n moss-tts-nano python=3.12 -y
conda activate moss-tts-nano

git clone https://github.com/OpenMOSS/MOSS-TTS-Nano.git
cd MOSS-TTS-Nano

pip install -r requirements.txt
pip install -e .

如果通过 requirements.txt 无法安装 WeTextProcessing，请尝试在相同环境中手动安装：

conda install -c conda-forge pynini=2.1.6.post1 -y
pip install git+https://github.com/WhizZest/WeTextProcessing.git

使用 `infer.py` 进行声音克隆

本仓库提供了用于本地推理的直接 Python 入口。以下示例使用声音克隆模式，这是 MOSS-TTS-Nano 推荐的主要工作流程。

python infer.py \
  --prompt-audio-path assets/audio/zh_1.wav \
  --text "欢迎关注模思智能、上海创智学院与复旦大学自然语言处理实验室。"

默认情况下，音频会写入 generated_audio/infer_output.wav。

使用 `app.py` 进行本地 Web 演示

您可以启动本地 FastAPI 演示，以便在浏览器中进行测试：

python app.py

然后在浏览器中打开 http://127.0.0.1:18083。

命令行命令：`moss-tts-nano generate`

执行 pip install -e . 后，您可以直接调用打包好的命令行工具：

moss-tts-nano generate \
  --prompt-speech assets/audio/zh_1.wav \
  --text "欢迎关注模思智能、上海创智学院与复旦大学自然语言处理实验室。"

实用说明：

moss-tts-nano generate 默认将音频写入 generated_audio/moss_tts_nano_output.wav。
--prompt-speech 是用于声音克隆的参考音频路径的友好别名。
--text-file 支持长文本合成。

命令行指令：`moss-tts-nano serve`

您也可以通过打包好的命令行界面启动网页演示：

moss-tts-nano serve

此命令会转发至 app.py，保持模型加载在内存中，并提供本地浏览器演示及 HTTP 生成端点服务。

MOSS-Audio-Tokenizer-Nano

简介

MOSS-Audio-Tokenizer 是整个 MOSS-TTS 系列的统一离散音频接口。它基于 Cat（Causal Audio Tokenizer with Transformer，因果音频 Transformer 分词器）架构构建，这是一种完全由因果 Transformer 块组成的无 CNN 音频分词器。它作为 MOSS-TTS、MOSS-TTS-Nano、MOSS-TTSD、MOSS-VoiceGenerator、MOSS-SoundEffect 和 MOSS-TTS-Realtime 的共享音频骨干网络，为整个产品系列提供一致的音频表示。

为在降低推理成本的同时进一步提升感知质量，我们训练了 MOSS-Audio-Tokenizer-Nano，这是一款轻量级分词器，拥有约 2000 万参数，专为高保真音频压缩设计。它支持 48 kHz 输入输出以及 立体声音频，有助于减少压缩损失并提升聆听质量。它能将 48 kHz 立体声音频 压缩为 12.5 Hz 的令牌流，并采用 16 个码本的 RVQ，可在 0.125 kbps 至 4 kbps 的可变比特率下实现高保真重建。

要了解更多关于设置、高级用法和评估指标的信息，请访问 MOSS-Audio-Tokenizer 仓库

MOSS-Audio-Tokenizer-Nano architecture MOSS-Audio-Tokenizer-Nano 架构

模型权重

模型	Hugging Face	ModelScope
MOSS-Audio-Tokenizer-Nano

许可协议

本仓库将遵循根目录下 LICENSE 文件中指定的许可协议。如果您在该文件发布前查看此内容，请将本仓库视为尚未获得再分发许可。

引用说明

如果您在研究或产品中使用了 MOSS-TTS 相关成果，请引用：

@misc{openmoss2026mossttsnano,
  title={MOSS-TTS-Nano},
  author={OpenMOSS Team},
  year={2026},
  howpublished={GitHub repository},
  url={https://github.com/OpenMOSS/MOSS-TTS-Nano}
}

@misc{gong2026mossttstechnicalreport,
  title={MOSS-TTS Technical Report},
  author={Yitian Gong and Botian Jiang and Yiwei Zhao and Yucheng Yuan and Kuangwei Chen and Yaozhou Jiang and Cheng Chang and Dong Hong and Mingshu Chen and Ruixiao Li and Yiyang Zhang and Yang Gao and Hanfu Chen and Ke Chen and Songlin Wang and Xiaogui Yang and Yuqian Zhang and Kexin Huang and ZhengYuan Lin and Kang Yu and Ziqi Chen and Jin Wang and Zhaoye Fei and Qinyuan Cheng and Shimin Li and Xipeng Qiu},
  year={2026},
  eprint={2603.18090},
  archivePrefix={arXiv},
  primaryClass={cs.SD},
  url={https://arxiv.org/abs/2603.18090}
}

@misc{gong2026mossaudiotokenizerscalingaudiotokenizers,
  title={MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models}, 
  author={Yitian Gong and Kuangwei Chen and Zhaoye Fei and Xiaogui Yang and Ke Chen and Yang Wang and Kexin Huang and Mingshu Chen and Ruixiao Li and Qingyuan Cheng and Shimin Li and Xipeng Qiu},
  year={2026},
  eprint={2602.10934},
  archivePrefix={arXiv},
  primaryClass={cs.SD},
  url={https://arxiv.org/abs/2602.10934}, 
}

MOSS-TTS-Nano

新闻动态

2026.4.10：我们发布了MOSS-TTS-Nano。演示空间可在 OpenMOSS-Team/MOSS-TTS-Nano 获取。您也可以在 openmoss.github.io/MOSS-TTS-Nano-Demo/ 查看演示及更多详情。

演示

在线演示：https://openmoss.github.io/MOSS-TTS-Nano-Demo/
Hugging Face 空间：OpenMOSS-Team/MOSS-TTS-Nano

简介

MOSS-TTS-Nano concept

主要特性

超小模型体积：仅0.1B 参数
原生音频格式：48 kHz、双声道输出
多语言支持：支持中文、英文及更多语言
纯自回归架构：基于音频分词器 + 大语言模型（Audio Tokenizer + LLM）构建
流式推理：低实时延迟，首段音频生成速度快
CPU 友好：流式生成可在4核 CPU 上运行
长文本支持：支持长输入，具备自动分块声音克隆功能
开源部署：直接支持 python infer.py、python app.py 及打包的命令行工具

支持的语言

MOSS-TTS-Nano 当前支持20种语言：

语言	代码	旗帜	语言	代码	旗帜	语言	代码	旗帜
Chinese	zh	🇨🇳	English	en	🇺🇸	German	de	🇩🇪
Spanish	es	🇪🇸	French	fr	🇫🇷	Japanese	ja	🇯🇵
Italian	it	🇮🇹	Hungarian	hu	🇭🇺	Korean	ko	🇰🇷
Russian	ru	🇷🇺	Persian (Farsi)	fa	🇮🇷	Arabic	ar	🇸🇦
Polish	pl	🇵🇱	Portuguese	pt	🇵🇹	Czech	cs	🇨🇿
Danish	da	🇩🇰	Swedish	sv	🇸🇪	Greek	el	🇬🇷
Turkish	tr	🇹🇷

快速入门

环境设置

使用 Conda

conda create -n moss-tts-nano python=3.12 -y
conda activate moss-tts-nano

git clone https://github.com/OpenMOSS/MOSS-TTS-Nano.git
cd MOSS-TTS-Nano

pip install -r requirements.txt
pip install -e .

如果通过 requirements.txt 无法安装 WeTextProcessing，请尝试在相同环境中手动安装：

conda install -c conda-forge pynini=2.1.6.post1 -y
pip install git+https://github.com/WhizZest/WeTextProcessing.git

使用 `infer.py` 进行声音克隆

本仓库提供了用于本地推理的直接 Python 入口。以下示例使用声音克隆模式，这是 MOSS-TTS-Nano 推荐的主要工作流程。

python infer.py \
  --prompt-audio-path assets/audio/zh_1.wav \
  --text "欢迎关注模思智能、上海创智学院与复旦大学自然语言处理实验室。"

默认情况下，音频会写入 generated_audio/infer_output.wav。

使用 `app.py` 进行本地 Web 演示

您可以启动本地 FastAPI 演示，以便在浏览器中进行测试：

python app.py

然后在浏览器中打开 http://127.0.0.1:18083。

命令行命令：`moss-tts-nano generate`

执行 pip install -e . 后，您可以直接调用打包好的命令行工具：

moss-tts-nano generate \
  --prompt-speech assets/audio/zh_1.wav \
  --text "欢迎关注模思智能、上海创智学院与复旦大学自然语言处理实验室。"

实用说明：

moss-tts-nano generate 默认将音频写入 generated_audio/moss_tts_nano_output.wav。
--prompt-speech 是用于声音克隆的参考音频路径的友好别名。
--text-file 支持长文本合成。

命令行指令：`moss-tts-nano serve`

您也可以通过打包好的命令行界面启动网页演示：

moss-tts-nano serve

此命令会转发至 app.py，保持模型加载在内存中，并提供本地浏览器演示及 HTTP 生成端点服务。

MOSS-Audio-Tokenizer-Nano

简介

要了解更多关于设置、高级用法和评估指标的信息，请访问 MOSS-Audio-Tokenizer 仓库

MOSS-Audio-Tokenizer-Nano architecture MOSS-Audio-Tokenizer-Nano 架构

模型权重

模型	Hugging Face	ModelScope
MOSS-Audio-Tokenizer-Nano

许可协议

本仓库将遵循根目录下 LICENSE 文件中指定的许可协议。如果您在该文件发布前查看此内容，请将本仓库视为尚未获得再分发许可。

引用说明

如果您在研究或产品中使用了 MOSS-TTS 相关成果，请引用：

@misc{openmoss2026mossttsnano,
  title={MOSS-TTS-Nano},
  author={OpenMOSS Team},
  year={2026},
  howpublished={GitHub repository},
  url={https://github.com/OpenMOSS/MOSS-TTS-Nano}
}

@misc{gong2026mossttstechnicalreport,
  title={MOSS-TTS Technical Report},
  author={Yitian Gong and Botian Jiang and Yiwei Zhao and Yucheng Yuan and Kuangwei Chen and Yaozhou Jiang and Cheng Chang and Dong Hong and Mingshu Chen and Ruixiao Li and Yiyang Zhang and Yang Gao and Hanfu Chen and Ke Chen and Songlin Wang and Xiaogui Yang and Yuqian Zhang and Kexin Huang and ZhengYuan Lin and Kang Yu and Ziqi Chen and Jin Wang and Zhaoye Fei and Qinyuan Cheng and Shimin Li and Xipeng Qiu},
  year={2026},
  eprint={2603.18090},
  archivePrefix={arXiv},
  primaryClass={cs.SD},
  url={https://arxiv.org/abs/2603.18090}
}

@misc{gong2026mossaudiotokenizerscalingaudiotokenizers,
  title={MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models}, 
  author={Yitian Gong and Kuangwei Chen and Zhaoye Fei and Xiaogui Yang and Ke Chen and Yang Wang and Kexin Huang and Mingshu Chen and Ruixiao Li and Qingyuan Cheng and Shimin Li and Xipeng Qiu},
  year={2026},
  eprint={2602.10934},
  archivePrefix={arXiv},
  primaryClass={cs.SD},
  url={https://arxiv.org/abs/2602.10934}, 
}

MOSS-TTS-Nano

新闻动态

演示

目录

简介

主要特性

支持的语言

快速入门

环境设置

使用 Conda

使用 infer.py 进行声音克隆

使用 app.py 进行本地 Web 演示

命令行命令：moss-tts-nano generate

命令行指令：moss-tts-nano serve

MOSS-Audio-Tokenizer-Nano

简介

模型权重

许可协议

引用说明

MOSS-TTS-Nano

新闻动态

演示

目录

简介

主要特性

支持的语言

快速入门

环境设置

使用 Conda

使用 infer.py 进行声音克隆

使用 app.py 进行本地 Web 演示

命令行命令：moss-tts-nano generate

命令行指令：moss-tts-nano serve

MOSS-Audio-Tokenizer-Nano

简介

模型权重

许可协议

引用说明

使用 `infer.py` 进行声音克隆

使用 `app.py` 进行本地 Web 演示

命令行命令：`moss-tts-nano generate`

命令行指令：`moss-tts-nano serve`

使用 `infer.py` 进行声音克隆

使用 `app.py` 进行本地 Web 演示

命令行命令：`moss-tts-nano generate`

命令行指令：`moss-tts-nano serve`