OpenMOSS/MOSS-SoundEffect-v2.0
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

MOSS-SoundEffect-V2.0

MOSS-SoundEffect v2.0 是一款基于扩散 Transformer(DiT)骨干网络,采用流匹配(Flow Matching)目标函数训练的文本转音频模型,搭配 DAC VAE 与 Qwen3 文本编码器。它能根据自然语言提示生成高保真的环境音、城市音、生物音及人类动作音效,可控时长最长达 30 秒,采样率为 48 kHz。

1. 概述

1.1 TTS 家族定位

在 MOSS-TTS 家族中,MOSS-SoundEffect 是专门的文本转音效模型——该家族成员负责将自然语言描述转换为非语音音频(如环境音、城市场景音、生物音、人类动作音及简短音乐片段)。v2.0 版本采用连续潜变量扩散 Transformer + 流匹配设计,取代了 v1 版本的离散 token 自回归骨干网络(MossTTSDelay)。

1.2 核心功能

  • 广泛的音效覆盖:自然环境、城市环境、动物与生物、人类动作,以及简短的音乐/打击乐片段。
  • 长音频生成:训练时通过在提示前添加时长标签,每次调用可稳定生成最长30 秒的音频。
  • 双语提示:使用中英文双语描述进行训练。

1.3 已发布模型

模型架构DiT 变体参数规模
MOSS-SoundEffect-V2.0DiT + 流匹配1.3B13 亿

推荐推理超参数

参数默认值描述
num_inference_steps100流匹配求解器步数。
cfg_scale4.0无分类器引导权重。
sigma_shift5.0每次调用应用的流匹配调度器偏移量。
seconds10.0输出时长,最长可达 30。

2. 快速开始

环境搭建

我们建议使用一个干净、隔离的 Python 3.12 环境,以避免与顶级 MOSS-TTS 环境发生依赖冲突。

conda create -n moss-soundeffect-v2 python=3.12 -y
conda activate moss-soundeffect-v2

git clone https://github.com/OpenMOSS/MOSS-TTS.git
cd MOSS-TTS/moss_soundeffect_v2
pip install --extra-index-url https://download.pytorch.org/whl/cu128 \
    -e ".[torch-cu128,finetune]"

若需仅用于推理的最小化安装(仍包含 Gradio 演示;不包含微调相关附加组件):

pip install --extra-index-url https://download.pytorch.org/whl/cu128 \
    -e ".[torch-cu128]"

基本使用方法

import torch
from moss_soundeffect_v2 import MossSoundEffectPipeline

pipe = MossSoundEffectPipeline.from_pretrained(
    "OpenMOSS-Team/MOSS-SoundEffect-v2.0",   # this repo, or a local dir
    torch_dtype=torch.bfloat16,
    device="cuda",
)

audio = pipe(
    prompt="A dog barking loudly in a park.",
    seconds=10,
    num_inference_steps=100,
    cfg_scale=4.0,
)                                            # (B, C, T) waveform tensor
pipe.save_audio(audio, "out.wav")

底层 DiT 通过 torch.compile + Triton CUDA Graph 进行封装。首次调用可能需要几分钟时间进行编译。如果遇到 TorchDynamo / Triton 错误,请在启动 Python 前设置 TORCHDYNAMO_DISABLE=1。

有关 Gradio 演示和微调方法,请参见 GitHub README。