本仓库提供了MOSS-TTS-Nano的ONNX导出文件,这是一款由MOSI.AI和OpenMOSS团队开发的0.1B参数多语言轻量级语音生成模型。该模型专为无torch依赖的CPU和浏览器轻量化部署而设计,建议与MOSS-Audio-Tokenizer-Nano-ONNX配合使用。
MOSS-TTS-Nano专注于TTS部署在实际应用中最关键的部分:小体积、低延迟、满足实时产品需求的音质以及简单的本地设置。它采用纯自回归的音频Tokenizer + LLM流水线,确保推理流程对浏览器演示、本地CPU运行时及其他轻量级集成友好。
主要特点:
MOSS-TTS-Nano支持的语言范围一致onnxruntime和onnxruntime-web设计本仓库仅包含导出的ONNX图。如需要原始PyTorch模型卡片和即插即用的本地推理脚本,请访问OpenMOSS-Team/MOSS-TTS-Nano或OpenMOSS/MOSS-TTS-Nano源码仓库。
| 后端 | 运行时 | 应用场景 |
|---|---|---|
| ONNX Runtime (CPU) | onnxruntime | 本地CPU推理 |
| ONNX Runtime Web | onnxruntime-web | 浏览器演示 / 扩展 |
| 文件 | 描述 |
|---|---|
moss_tts_prefill.onnx | 全局Transformer预填充图 |
moss_tts_decode_step.onnx | 带KV缓存的全局Transformer解码步骤图 |
moss_tts_local_decoder.onnx | 本地解码器图 |
moss_tts_local_cached_step.onnx | 本地缓存步骤图 |
moss_tts_local_fixed_sampled_frame.onnx | 本地帧采样图 |
moss_tts_global_shared.data | 全局图共享的外部权重 |
moss_tts_local_shared.data | 本地图共享的外部权重 |
tokenizer.model | 文本前端使用的SentencePiece分词器 |
tts_browser_onnx_meta.json | ONNX运行时集成的元数据 |
browser_poc_manifest.json | 基于浏览器集成的示例清单文件 |
huggingface-cli download OpenMOSS-Team/MOSS-TTS-Nano-100M-ONNX \
--local-dir weights/MOSS-TTS-Nano-100M-ONNX
huggingface-cli download OpenMOSS-Team/MOSS-Audio-Tokenizer-Nano-ONNX \
--local-dir weights/MOSS-Audio-Tokenizer-Nano-ONNXTTS 仓库提供语言模型和文本分词器的导出文件,而配套的编解码器仓库则提供波形编码/解码 ONNX 模型。
| 仓库 | 描述 |
|---|---|
| OpenMOSS/MOSS-TTS-Nano | MOSS-TTS-Nano 源代码、演示及 PyTorch 推理实现 |
| OpenMOSS-Team/MOSS-TTS-Nano | PyTorch 版 MOSS-TTS-Nano 权重文件 |
| OpenMOSS-Team/MOSS-Audio-Tokenizer-Nano-ONNX | 配套的 ONNX 音频分词器 |
| OpenMOSS-Team/MOSS-Audio-Tokenizer-Nano | PyTorch 版音频分词器权重文件 |
| OpenMOSS/MOSS-TTS-Nano-Reader | 基于 ONNX 技术栈构建的浏览器阅读应用 |
MOSS-TTS-Nano 是一款开源多语言轻量级语音生成模型,专为实时语音生成和轻量化部署而设计。ONNX 导出版本保留了与 PyTorch 版本相同的核心架构,同时更易于集成到浏览器和仅支持 CPU 的运行环境中,且无需依赖 PyTorch。
有关完整的项目介绍、演示及 PyTorch 使用方法,请参阅:
如果您在研究或产品中使用了 MOSS-TTS 相关成果,请引用:
@misc{openmoss2026mossttsnano,
title={MOSS-TTS-Nano},
author={OpenMOSS Team},
year={2026},
howpublished={GitHub repository},
url={https://github.com/OpenMOSS/MOSS-TTS-Nano}
}@misc{gong2026mossttstechnicalreport,
title={MOSS-TTS Technical Report},
author={Yitian Gong and Botian Jiang and Yiwei Zhao and Yucheng Yuan and Kuangwei Chen and Yaozhou Jiang and Cheng Chang and Dong Hong and Mingshu Chen and Ruixiao Li and Yiyang Zhang and Yang Gao and Hanfu Chen and Ke Chen and Songlin Wang and Xiaogui Yang and Yuqian Zhang and Kexin Huang and ZhengYuan Lin and Kang Yu and Ziqi Chen and Jin Wang and Zhaoye Fei and Qinyuan Cheng and Shimin Li and Xipeng Qiu},
year={2026},
eprint={2603.18090},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2603.18090}
}@misc{gong2026mossaudiotokenizerscalingaudiotokenizers,
title={MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models},
author={Yitian Gong and Kuangwei Chen and Zhaoye Fei and Xiaogui Yang and Ke Chen and Yang Wang and Kexin Huang and Mingshu Chen and Ruixiao Li and Qingyuan Cheng and Shimin Li and Xipeng Qiu},
year={2026},
eprint={2602.10934},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2602.10934}
}