MOSS-SoundEffect v2.0 是一款基于扩散 Transformer(DiT)骨干网络,采用流匹配(Flow Matching)目标函数训练的文本转音频模型,搭配 DAC VAE 与 Qwen3 文本编码器。它能根据自然语言提示生成高保真的环境音、城市音、生物音及人类动作音效,可控时长最长达 30 秒,采样率为 48 kHz。
在 MOSS-TTS 家族中,MOSS-SoundEffect 是专门的文本转音效模型——该家族成员负责将自然语言描述转换为非语音音频(如环境音、城市场景音、生物音、人类动作音及简短音乐片段)。v2.0 版本采用连续潜变量扩散 Transformer + 流匹配设计,取代了 v1 版本的离散 token 自回归骨干网络(MossTTSDelay)。
| 模型 | 架构 | DiT 变体 | 参数规模 |
|---|---|---|---|
| MOSS-SoundEffect-V2.0 | DiT + 流匹配 | 1.3B | 13 亿 |
推荐推理超参数
| 参数 | 默认值 | 描述 |
|---|---|---|
num_inference_steps | 100 | 流匹配求解器步数。 |
cfg_scale | 4.0 | 无分类器引导权重。 |
sigma_shift | 5.0 | 每次调用应用的流匹配调度器偏移量。 |
seconds | 10.0 | 输出时长,最长可达 30。 |
我们建议使用一个干净、隔离的 Python 3.12 环境,以避免与顶级 MOSS-TTS 环境发生依赖冲突。
conda create -n moss-soundeffect-v2 python=3.12 -y
conda activate moss-soundeffect-v2
git clone https://github.com/OpenMOSS/MOSS-TTS.git
cd MOSS-TTS/moss_soundeffect_v2
pip install --extra-index-url https://download.pytorch.org/whl/cu128 \
-e ".[torch-cu128,finetune]"若需仅用于推理的最小化安装(仍包含 Gradio 演示;不包含微调相关附加组件):
pip install --extra-index-url https://download.pytorch.org/whl/cu128 \
-e ".[torch-cu128]"import torch
from moss_soundeffect_v2 import MossSoundEffectPipeline
pipe = MossSoundEffectPipeline.from_pretrained(
"OpenMOSS-Team/MOSS-SoundEffect-v2.0", # this repo, or a local dir
torch_dtype=torch.bfloat16,
device="cuda",
)
audio = pipe(
prompt="A dog barking loudly in a park.",
seconds=10,
num_inference_steps=100,
cfg_scale=4.0,
) # (B, C, T) waveform tensor
pipe.save_audio(audio, "out.wav")底层 DiT 通过
torch.compile+ Triton CUDA Graph 进行封装。首次调用可能需要几分钟时间进行编译。如果遇到TorchDynamo/ Triton 错误,请在启动 Python 前设置TORCHDYNAMO_DISABLE=1。
有关 Gradio 演示和微调方法,请参见 GitHub README。