MOSS-Audio-Tokenizer-Nano-ONNX

本仓库提供了 MOSS-Audio-Tokenizer-Nano 的 ONNX 导出文件，这是 MOSS-TTS-Nano 所使用的轻量级音频分词器。它旨在通过 ONNX Runtime 和 ONNX Runtime Web 实现无 torch 依赖的部署。

概述

Nano 变体是一款轻量级分词器，拥有约 2000 万参数，旨在降低部署成本的同时保持出色的感知质量。

MOSS-Audio-Tokenizer-Nano 支持：

48 kHz、立体声音频
12.5 Hz 令牌率
16 个 RVQ 码本
不同比特率下的高保真重建

此 ONNX 仓库适用于轻量级推理管道，例如：

使用 onnxruntime 进行本地 CPU 部署
使用 onnxruntime-web 进行浏览器部署
作为 MOSS-TTS-Nano-100M-ONNX 的配套音频编码/解码工具

支持的后端

后端	运行时	用例
ONNX Runtime (CPU)	`onnxruntime`	本地 CPU 推理
ONNX Runtime Web	`onnxruntime-web`	基于浏览器的部署

仓库内容

文件	描述
`moss_audio_tokenizer_encode.onnx`	用于波形转离散音频编码的编码器图
`moss_audio_tokenizer_encode.data`	编码器图的外部权重
`moss_audio_tokenizer_decode_full.onnx`	用于音频编码转波形的完整解码器图
`moss_audio_tokenizer_decode_step.onnx`	用于增量解码的流式解码器步骤图
`moss_audio_tokenizer_decode_shared.data`	解码器图共享的外部权重
`codec_browser_onnx_meta.json`	用于浏览器/ONNX 运行时集成的元数据

快速开始

huggingface-cli download OpenMOSS-Team/MOSS-Audio-Tokenizer-Nano-ONNX \
    --local-dir weights/MOSS-Audio-Tokenizer-Nano-ONNX

此仓库通常与OpenMOSS-Team/MOSS-TTS-Nano-100M-ONNX配合使用，以实现完全无torch的MOSS-TTS-Nano部署。

主要仓库

仓库	描述
OpenMOSS/MOSS-TTS-Nano	MOSS-TTS-Nano源代码和推理流程
OpenMOSS-Team/MOSS-TTS-Nano	PyTorch MOSS-TTS-Nano权重
OpenMOSS-Team/MOSS-Audio-Tokenizer-Nano	PyTorch MOSS-Audio-Tokenizer-Nano权重
OpenMOSS-Team/MOSS-TTS-Nano-100M-ONNX	配套ONNX TTS权重

关于MOSS-Audio-Tokenizer-Nano

MOSS-Audio-Tokenizer-Nano 作为MOSS-TTS-Nano的轻量级编解码器核心，在保持MOSS-TTS系列统一音频令牌接口的同时，降低了CPU和浏览器部署场景下的推理成本。

有关原始PyTorch实现、设置说明和更多背景信息，请参见：

引用

如果您在研究或产品中使用了MOSS-TTS相关成果，请引用：

@misc{openmoss2026mossttsnano,
  title={MOSS-TTS-Nano},
  author={OpenMOSS Team},
  year={2026},
  howpublished={GitHub repository},
  url={https://github.com/OpenMOSS/MOSS-TTS-Nano}
}

@misc{gong2026mossttstechnicalreport,
  title={MOSS-TTS Technical Report},
  author={Yitian Gong and Botian Jiang and Yiwei Zhao and Yucheng Yuan and Kuangwei Chen and Yaozhou Jiang and Cheng Chang and Dong Hong and Mingshu Chen and Ruixiao Li and Yiyang Zhang and Yang Gao and Hanfu Chen and Ke Chen and Songlin Wang and Xiaogui Yang and Yuqian Zhang and Kexin Huang and ZhengYuan Lin and Kang Yu and Ziqi Chen and Jin Wang and Zhaoye Fei and Qinyuan Cheng and Shimin Li and Xipeng Qiu},
  year={2026},
  eprint={2603.18090},
  archivePrefix={arXiv},
  primaryClass={cs.SD},
  url={https://arxiv.org/abs/2603.18090}
}

@misc{gong2026mossaudiotokenizerscalingaudiotokenizers,
  title={MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models},
  author={Yitian Gong and Kuangwei Chen and Zhaoye Fei and Xiaogui Yang and Ke Chen and Yang Wang and Kexin Huang and Mingshu Chen and Ruixiao Li and Qingyuan Cheng and Shimin Li and Xipeng Qiu},
  year={2026},
  eprint={2602.10934},
  archivePrefix={arXiv},
  primaryClass={cs.SD},
  url={https://arxiv.org/abs/2602.10934}
}