MOSS-SoundEffect-V2.0

MOSS-SoundEffect v2.0 是一款基于扩散 Transformer（DiT）骨干网络，采用流匹配（Flow Matching）目标函数训练的文本转音频模型，搭配 DAC VAE 与 Qwen3 文本编码器。它能根据自然语言提示生成高保真的环境音、城市音、生物音及人类动作音效，可控时长最长达 30 秒，采样率为 48 kHz。

1. 概述

1.1 TTS 家族定位

在 MOSS-TTS 家族中，MOSS-SoundEffect 是专门的文本转音效模型——该家族成员负责将自然语言描述转换为非语音音频（如环境音、城市场景音、生物音、人类动作音及简短音乐片段）。v2.0 版本采用连续潜变量扩散 Transformer + 流匹配设计，取代了 v1 版本的离散 token 自回归骨干网络（MossTTSDelay）。

1.2 核心功能

广泛的音效覆盖：自然环境、城市环境、动物与生物、人类动作，以及简短的音乐/打击乐片段。
长音频生成：训练时通过在提示前添加时长标签，每次调用可稳定生成最长30 秒的音频。
双语提示：使用中英文双语描述进行训练。

1.3 已发布模型

模型	架构	DiT 变体	参数规模
MOSS-SoundEffect-V2.0	DiT + 流匹配	`1.3B`	13 亿

推荐推理超参数

参数	默认值	描述
`num_inference_steps`	100	流匹配求解器步数。
`cfg_scale`	4.0	无分类器引导权重。
`sigma_shift`	5.0	每次调用应用的流匹配调度器偏移量。
`seconds`	10.0	输出时长，最长可达 30。

2. 快速开始

环境搭建

我们建议使用一个干净、隔离的 Python 3.12 环境，以避免与顶级 MOSS-TTS 环境发生依赖冲突。

conda create -n moss-soundeffect-v2 python=3.12 -y
conda activate moss-soundeffect-v2

git clone https://github.com/OpenMOSS/MOSS-TTS.git
cd MOSS-TTS/moss_soundeffect_v2
pip install --extra-index-url https://download.pytorch.org/whl/cu128 \
    -e ".[torch-cu128,finetune]"

若需仅用于推理的最小化安装（仍包含 Gradio 演示；不包含微调相关附加组件）：

pip install --extra-index-url https://download.pytorch.org/whl/cu128 \
    -e ".[torch-cu128]"

基本使用方法

import torch
from moss_soundeffect_v2 import MossSoundEffectPipeline

pipe = MossSoundEffectPipeline.from_pretrained(
    "OpenMOSS-Team/MOSS-SoundEffect-v2.0",   # this repo, or a local dir
    torch_dtype=torch.bfloat16,
    device="cuda",
)

audio = pipe(
    prompt="A dog barking loudly in a park.",
    seconds=10,
    num_inference_steps=100,
    cfg_scale=4.0,
)                                            # (B, C, T) waveform tensor
pipe.save_audio(audio, "out.wav")

底层 DiT 通过 torch.compile + Triton CUDA Graph 进行封装。首次调用可能需要几分钟时间进行编译。如果遇到 TorchDynamo / Triton 错误，请在启动 Python 前设置 TORCHDYNAMO_DISABLE=1。

有关 Gradio 演示和微调方法，请参见 GitHub README。