Audiocraft 提供了 MusicGen 的代码与模型,这是一个简单可控的音乐生成模型。 MusicGen 采用单阶段自回归 Transformer 架构,基于 32kHz EnCodec 分词器进行训练,使用 4 个码本并以 50 Hz 频率采样。 与 MusicLM 等现有方法不同,MusicGen 无需自监督语义表征即可一次性生成全部 4 个码本。 通过在码本间引入微小延迟,我们实现了并行预测,每秒音频仅需 50 个自回归步骤。
MusicGen 由 Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, Gabriel Synnaeve, Yossi Adi, Alexandre Défossez 联合发表于论文《简单可控的音乐生成》。
本次发布包含四个预训练模型:
立即尝试 MusicGen!
audiocraft 库pip install git+https://github.com/facebookresearch/audiocraft.gitffmpeg:apt get install ffmpegimport torchaudio
from audiocraft.models import MusicGen
from audiocraft.data.audio import audio_write
model = MusicGen.get_pretrained('melody')
model.set_generation_params(duration=8) # generate 8 seconds.
descriptions = ['happy rock', 'energetic EDM', 'sad jazz']
melody, sr = torchaudio.load('./assets/bach.mp3')
# generates using the melody from the given audio and the provided descriptions.
wav = model.generate_with_chroma(descriptions, melody[None].expand(3, -1, -1), sr)
for idx, one_wav in enumerate(wav):
# Will save under {idx}.wav, with loudness normalization at -14 db LUFS.
audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")开发机构: Meta AI 的 FAIR 团队。
模型训练时间: MusicGen 于 2023 年 4 月至 2023 年 5 月期间完成训练。
模型版本: 此为模型的初代版本(v1)。
模型类型: MusicGen 包含用于音频标记化的 EnCodec 模型,以及基于 Transformer 架构的自回归语言模型用于音乐建模。该模型提供三种参数量规格:300M、1.5B 和 3.3B;并具备两种变体:专为文本到音乐生成任务训练的模型,以及支持旋律引导音乐生成的模型。
论文与资源: 更多详细信息请参阅论文《简单可控的音乐生成》。
引用说明:
@misc{copet2023simple,
title={Simple and Controllable Music Generation},
author={Jade Copet and Felix Kreuk and Itai Gat and Tal Remez and David Kant and Gabriel Synnaeve and Yossi Adi and Alexandre Défossez},
year={2023},
eprint={2306.05284},
archivePrefix={arXiv},
primaryClass={cs.SD}
}许可说明: 代码采用 MIT 许可证发布,模型权重遵循 CC-BY-NC 4.0 许可协议。
模型问题反馈渠道: 有关 MusicGen 的疑问与建议可通过项目 GitHub 代码库提交,或通过创建 issue 进行反馈。
主要用途: MusicGen 主要用于基于人工智能的音乐生成研究,包括:
目标用户群体: 主要面向音频、机器学习与人工智能领域的研究者,以及希望深入理解此类模型的业余爱好者。
非适用场景: 未经风险评估和风险控制措施完善前,本模型不得用于下游应用场景。禁止使用本模型故意创作或传播制造敌对氛围或使人疏离的音乐作品,包括生成可预见的令人不安、痛苦或冒犯性的音乐内容,以及传播历史或当代刻板印象的内容。
模型性能度量: 我们采用以下客观指标在标准音乐基准上评估模型:
此外,我们通过人工参与的定性研究,从以下维度评估模型表现:
性能度量与人工研究的详细说明请参阅论文原文。
决策阈值: 不适用。
本模型在 MusicCaps 基准数据集 及领域内预留评估集上进行评估,确保评估集艺术家与训练集无重合。
模型基于授权数据训练,数据来源包括:Meta音乐计划音效集、Shutterstock音乐库 及 Pond5音乐库。关于训练集详情及相应预处理方法请参阅论文。
下表为发布模型在MusicCaps数据集上获得的客观指标。需注意,对于公开发布的模型,我们采用先进音乐源分离技术——即开源项目混合变换器音乐源分离模型(HT-Demucs)对全部数据集进行处理,仅保留器乐部分。这与论文中使用的模型客观指标存在差异。
| 模型 | 弗雷谢音频距离 | KL散度 | 文本一致性 | 色度余弦相似度 |
|---|---|---|---|---|
| facebook/musicgen-small | 4.88 | 1.42 | 0.27 | - |
| facebook/musicgen-medium | 5.14 | 1.38 | 0.28 | - |
| facebook/musicgen-large | 5.48 | 1.37 | 0.28 | - |
| facebook/musicgen-melody | 4.93 | 1.41 | 0.27 | 0.44 |
更多信息请参阅论文《简单可控的音乐生成》的结果章节。
数据: 训练数据源自音乐专业人士创作且与权利人签订合法协议。模型基于2万小时数据训练,我们相信扩大数据集规模可进一步提升模型性能。
缓解措施: 通过标签筛选移除声乐数据,并采用先进音乐源分离技术——即开源项目混合变换器音乐源分离模型(HT-Demucs)进行处理。
局限性:
偏差: 数据源多样性可能存在不足,未能均衡体现所有音乐文化。模型对不同音乐类型的表现存在差异,生成样本会反映训练数据中的偏差。后续工作应包含文化平衡表征方法,如扩展训练数据以实现多样性与包容性。
风险与危害: 模型的偏差与局限性可能导致生成具有偏见、不当或冒犯性的内容。我们相信开源研究代码与模型训练方案将有助于拓展至更具代表性的数据应用。
使用场景: 用户必须充分认知模型的偏差、局限性与风险。MusicGen是专为可控音乐生成人工智能研究开发的模型,未经风险评估与缓解措施研究,不应直接用于下游应用。