OpenMOSS/MOSS-TTS-Nano-100M-ONNX
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

MOSS-TTS-Nano-100M-ONNX

本仓库提供了MOSS-TTS-Nano的ONNX导出文件,这是一款由MOSI.AI和OpenMOSS团队开发的0.1B参数多语言轻量级语音生成模型。该模型专为无torch依赖的CPU和浏览器轻量化部署而设计,建议与MOSS-Audio-Tokenizer-Nano-ONNX配合使用。

概述

MOSS-TTS-Nano专注于TTS部署在实际应用中最关键的部分:小体积、低延迟、满足实时产品需求的音质以及简单的本地设置。它采用纯自回归的音频Tokenizer + LLM流水线,确保推理流程对浏览器演示、本地CPU运行时及其他轻量级集成友好。

主要特点:

  • 超小模型尺寸:约0.1B参数
  • 原生音频格式:48 kHz,双声道输出
  • 多语言支持:与PyTorch版本MOSS-TTS-Nano支持的语言范围一致
  • 纯自回归架构:基于音频Tokenizer + LLM构建
  • 流式友好导出:拆分为预填充(prefill)/ 解码步骤(decode-step)/ 本地解码器(local decoder)ONNX图
  • CPU与浏览器部署:针对onnxruntime和onnxruntime-web设计

本仓库仅包含导出的ONNX图。如需要原始PyTorch模型卡片和即插即用的本地推理脚本,请访问OpenMOSS-Team/MOSS-TTS-Nano或OpenMOSS/MOSS-TTS-Nano源码仓库。

支持的后端

后端运行时应用场景
ONNX Runtime (CPU)onnxruntime本地CPU推理
ONNX Runtime Webonnxruntime-web浏览器演示 / 扩展

仓库内容

文件描述
moss_tts_prefill.onnx全局Transformer预填充图
moss_tts_decode_step.onnx带KV缓存的全局Transformer解码步骤图
moss_tts_local_decoder.onnx本地解码器图
moss_tts_local_cached_step.onnx本地缓存步骤图
moss_tts_local_fixed_sampled_frame.onnx本地帧采样图
moss_tts_global_shared.data全局图共享的外部权重
moss_tts_local_shared.data本地图共享的外部权重
tokenizer.model文本前端使用的SentencePiece分词器
tts_browser_onnx_meta.jsonONNX运行时集成的元数据
browser_poc_manifest.json基于浏览器集成的示例清单文件

快速开始

huggingface-cli download OpenMOSS-Team/MOSS-TTS-Nano-100M-ONNX \
    --local-dir weights/MOSS-TTS-Nano-100M-ONNX

huggingface-cli download OpenMOSS-Team/MOSS-Audio-Tokenizer-Nano-ONNX \
    --local-dir weights/MOSS-Audio-Tokenizer-Nano-ONNX

TTS 仓库提供语言模型和文本分词器的导出文件,而配套的编解码器仓库则提供波形编码/解码 ONNX 模型。

主要仓库

仓库描述
OpenMOSS/MOSS-TTS-NanoMOSS-TTS-Nano 源代码、演示及 PyTorch 推理实现
OpenMOSS-Team/MOSS-TTS-NanoPyTorch 版 MOSS-TTS-Nano 权重文件
OpenMOSS-Team/MOSS-Audio-Tokenizer-Nano-ONNX配套的 ONNX 音频分词器
OpenMOSS-Team/MOSS-Audio-Tokenizer-NanoPyTorch 版音频分词器权重文件
OpenMOSS/MOSS-TTS-Nano-Reader基于 ONNX 技术栈构建的浏览器阅读应用

关于 MOSS-TTS-Nano

MOSS-TTS-Nano 是一款开源多语言轻量级语音生成模型,专为实时语音生成和轻量化部署而设计。ONNX 导出版本保留了与 PyTorch 版本相同的核心架构,同时更易于集成到浏览器和仅支持 CPU 的运行环境中,且无需依赖 PyTorch。

有关完整的项目介绍、演示及 PyTorch 使用方法,请参阅:

  • MOSS-TTS-Nano 仓库
  • Hugging Face 上的 MOSS-TTS-Nano

引用

如果您在研究或产品中使用了 MOSS-TTS 相关成果,请引用:

@misc{openmoss2026mossttsnano,
  title={MOSS-TTS-Nano},
  author={OpenMOSS Team},
  year={2026},
  howpublished={GitHub repository},
  url={https://github.com/OpenMOSS/MOSS-TTS-Nano}
}
@misc{gong2026mossttstechnicalreport,
  title={MOSS-TTS Technical Report},
  author={Yitian Gong and Botian Jiang and Yiwei Zhao and Yucheng Yuan and Kuangwei Chen and Yaozhou Jiang and Cheng Chang and Dong Hong and Mingshu Chen and Ruixiao Li and Yiyang Zhang and Yang Gao and Hanfu Chen and Ke Chen and Songlin Wang and Xiaogui Yang and Yuqian Zhang and Kexin Huang and ZhengYuan Lin and Kang Yu and Ziqi Chen and Jin Wang and Zhaoye Fei and Qinyuan Cheng and Shimin Li and Xipeng Qiu},
  year={2026},
  eprint={2603.18090},
  archivePrefix={arXiv},
  primaryClass={cs.SD},
  url={https://arxiv.org/abs/2603.18090}
}
@misc{gong2026mossaudiotokenizerscalingaudiotokenizers,
  title={MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models},
  author={Yitian Gong and Kuangwei Chen and Zhaoye Fei and Xiaogui Yang and Ke Chen and Yang Wang and Kexin Huang and Mingshu Chen and Ruixiao Li and Qingyuan Cheng and Shimin Li and Xipeng Qiu},
  year={2026},
  eprint={2602.10934},
  archivePrefix={arXiv},
  primaryClass={cs.SD},
  url={https://arxiv.org/abs/2602.10934}
}