合并请求 - MOSS-SoundEffect-v2.0:可根据自然语言提示生成高保真环境、城市、生物及人类动作音效,支持中英双语,时长可控达30秒。核心采用Diffusion Transformer架构与Flow Matching目标训练,搭配DAC VAE和Qwen3文本编码器。【此简介由AI生成】 - AtomGit AI社区