科大讯飞/AudioFly
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

AudioFly 模型卡片

模型介绍

AudioFly 是一款音频生成模型。它能够根据文本描述合成音效。该模型可生成采样率为 44.1 kHz 的高质量音频,且生成的音频与提示文本具有高度的一致性。

AudioFly 采用潜扩散模型(Latent Diffusion Model)架构。模型拥有 10 亿参数,在规模庞大且多样化的语料库上进行训练。训练数据包括开源数据集(如 AudioSet、AudioCaps 和 TUT)以及专有内部数据。该模型在单事件和多事件场景下均表现出色,生成的音频能准确反映描述内容。在 AudioCaps 数据集上,AudioFly 的性能优于以往的音频生成模型。

评估结果

实验结果在 AudioCaps 数据集上报告。对于基线模型,我们复用了 STABLE AUDIO OPEN 的评估结果。为确保一致性,我们遵循了相同的评估方法。评估结果如下表所示:

模型FD ↓KL ↓CLAP ↑
AudioLDM2-48kHz101.112.040.37
AudioGen-medium186.531.420.45
Stable Audio 1.0103.662.890.24
Stable Audio 2.0110.622.700.23
Stable Audio Open78.242.140.29
AudioFly40.11.350.45

使用方法

环境要求

我们建议使用提供的配置文件搭建运行环境,运行命令如下:

pip install -r requirements.txt 
# make sure to set the PYTHONPATH to include the AudioFly project root
export PYTHONPATH=/path/to/AudioFly:$PYTHONPATH
cd /path/to/AudioFly

快速入门

import yaml
import torch
from ldm.utils.util import instantiate_from_config


configs = yaml.load(open('./config/config.yaml', "r"), Loader=yaml.FullLoader)
model = instantiate_from_config(configs["model"])

checkpoint = torch.load('./models/ldm/model.ckpt')
model.load_state_dict(checkpoint, strict=False)
model.eval()
model = model.cuda()
text = 'Fierce winds howl through the valley' 
name = 'result'
savedir = './result'
model.generate_sample(
        textlist=[text],
        name=name,
        cfg=3.5,# Guidance scale (controls how strongly generation follows the text prompt); not recommended to change
        ddim_steps=200,  # Number of denoising steps in the diffusion process; not recommended to change
        outputdir=f"{savedir}")

许可证

AudioFly 采用 Apache 2.0 许可证。