Foundation-1 是一款围绕音乐结构设计的下一代文本转采样模型。它经过训练,能够将乐器编配、音色、效果器和记谱法理解为独立的可组合控制元素。这使音乐人和制作人不仅能直接控制乐器本身,还能掌控声音特性、乐句表现、音乐感觉和循环结构。
其成果是一个为实际制作流程打造的模型:** tempo 同步、调性感知、小节感知的采样生成**,兼具出色的音乐性、对提示词的强遵循度以及异常高的音色灵活性。
Foundation-1 专为纯采样生成而设计。它擅长生成连贯的音乐循环,这些循环能锁定 tempo 和乐句长度,同时允许跨乐器家族、音色描述符、效果器和基于记谱法的音乐表现进行分层提示。
大多数音频模型能够对“温暖的 pad”或“明亮的合成器”这类宽泛的提示词做出反应,但结果往往不一致。Foundation-1 的设计更进一步,将声音视为一个分层系统:
这种分层条件控制方法是 Foundation-1 能够同时实现高音乐性和高提示词控制力的主要原因。
| 提示词 | 音频 |
|---|---|
| Bass, FM Bass, Medium Delay, Medium Reverb, Low Distortion, Phaser, Sub Bass, Bass, Upper Mids, Acid, Gritty, Wide, Dubstep, Thick, Silky, Warm, Rich, Overdriven, Crisp, Deep, Clean, Pitch Bend, 303, 8 Bars, 140 BPM, E minor | |
| Sub Bass, Bass, Gritty, Small, Square, Bass, Dark, Digital, Thick, Clean, Simple, Bassline, Epic, Choppy, Melody, 4 Bars, 150 BPM, G# minor | |
| Flute, Pizzicato, Punchy, Present, Ambient, Nasal, Melody, Epic, Airy, Slow Speed, 8 Bars, 150 BPM, E minor | |
| High Saw, Spacey, Lead, Warm, Silky, Smooth, 303, Synth Lead, Medium Reverb, Low Distortion, Upper Mids, Mids, Pitch Bend, Arp, 8 Bars, 140 BPM, F minor | |
| Trumpet, Warm, Complex Arp Melody, High Reverb, Low Distortion, Smooth, Silky, Texture, 8 Bars, 130 BPM, C minor | |
| Synth, Pad, Chord Progression, Rising, Digital, Bass, Fat, Near, Wide, Silky, Warm, Focused, 8 Bars, 110 BPM, D major | |
| Piccolo, Flute, Airy, Music Box, plucked, complex melody, 8 Bars, 140 BPM, C# minor | |
| Synth Lead, Wavetable Bass, Low Distortion, High Reverb, Sub Bass, Upper Mids, Acid, Gritty, Wide, Thick, Silky, Warm, Rich, Overdriven, Crisp, Clean, 303, Complex, 8 Bars, 140 BPM, F minor | |
| Fiddle, Bowed Strings, Full, Clean, Spacey, Rich, Intimate, Thick, Rolling, Arp, Fast Speed, Complex, 8 Bars, 128 BPM, B minor | |
| Chiptune, Chord Progression, Pulse Wave, Medium Reverb, 8 Bars, 128 BPM, D minor | |
| Kalimba, Mallet, Medium Reverb, Overdriven, Wide, Metallic, Thick, Sparkly, Upper Mids, Bright, Airy, Alternating, Chord Progression, Atmosphere, Spacey, Fast Speed, 8 Bars, 120 BPM, B minor |
Foundation-1 经过训练,旨在生成结构化的音乐素材,而非完整的音乐作品或通用音色。音乐记谱术语能够引导记谱、和弦进行、旋律、琶音、乐句走向、节奏密度以及其他与音乐相关的表现。
该模型支持广泛的乐器层级,涵盖合成器、键盘、贝斯、弓弦乐器、打击乐器、管乐器、吉他、铜管乐器、人声和弹拨乐器。
Foundation-1 不仅限于宽泛的乐器名称。它还能对诸如频谱形状、音调、宽度、密度、织体、亮度、温暖度、颗粒感、空间感以及其他声音特征等音色描述做出响应。
由于乐器识别和音色特征并未被简化为单一的扁平标签,因此该模型在音色混合和分层声音提示方面表现尤为出色。
该模型支持专用的效果器层,涵盖多种形式的混响、延迟、失真、移相器和比特率压缩。
Foundation-1 专为可直接用于制作的循环片段生成而构建,包括在支持的节拍类型内具备 BPM 感知和小节感知的结构。
Foundation-1 采用分层标签体系进行训练,旨在提升控制力、可组合性和提示清晰度。
这使得在不同抽象层级进行提示成为可能。用户可以使用如 Synth(合成器)或 Keys(键盘)等类别级别的宽泛提示,也可以使用 Synth Lead(合成器主音)、Wavetable Bass(波表贝斯)、Grand Piano(三角钢琴)、Violin(小提琴)或 Trumpet(小号)等更具体的术语,然后使用音色和效果器描述符进一步塑造输出。
Foundation-1 针对以下主要乐器家族进行了训练:
Foundation-1 包含广泛的子家族层级,涵盖与音乐制作相关的各类乐器角色,包括但不限于:
Foundation-1 的主要优势之一在于,它并非将音色视为事后补充。音色特征直接体现在提示系统中,使用户不仅能控制生成的内容,还能控制其听感。
代表性的音色描述词包括:
这种标签设计使提示更加灵活。用户不仅可以指定乐器,还能塑造:
这对于希望将输出导向混音中特定角色,而非仅仅使用通用乐器标签的制作人来说尤其有用。
有关所用标签的列表,请参见 标签参考表。
Foundation-1 包含专门的效果器描述层,涵盖多种常见的制作效果。
代表性的效果器标签包括:
Foundation-1 训练时采用了结构化的音乐描述符,旨在提升乐句连贯性、节奏意图、旋律走向和提示控制力。
这些记谱式提示术语有助于引导:
支持的结构概念示例可能包括以下术语:
这种记谱层是 Foundation-1 能够生成异常连贯的音乐素材,而非静态或松散关联乐句的主要原因之一。这些术语可以根据需要混合搭配使用。
Foundation-1 专为结构化音乐制作工作流程设计,并支持:
为获得最佳效果,请使用围绕模型标签构建的丰富提示词。这些标签可根据需要混合搭配。该模型在结构化层次上进行训练,旨在促进音乐上连贯的样本生成。
[乐器族/子族],[音色],[音乐表现/记谱法],[效果器],[调],[小节],[BPM]
首先谨慎使用效果器和音色标签,在了解模型行为后再逐步增加。
下面每一行使用完全相同的提示词,但随机种子不同。
音色标签保持不变,因此整体声音特征保持一致,而旋律和音乐内容在不同生成结果之间有所变化。
| 提示词 | 输出A | 输出B | 输出C |
|---|---|---|---|
| Bass, FM Bass, Medium Delay, Medium Reverb, Low Distortion, Phaser, Acid, Gritty, Wide, Dubstep, Thick, Silky, Warm, Rich, Overdriven, Crisp, Deep, Clean, Triplets, 8 Bars, 150 BPM, A minor | |||
| Gritty, Acid, Bassline, 303, Synth Lead, FM, Sub, Upper Mids, High Phaser, High Reverb, Pitch Bend, 8 Bars, 140 BPM, E minor | |||
| Kalimba, Mallet, Medium Reverb, Overdriven, Wide, Metallic, Thick, Sparkly, Upper Mids, Bright, Airy, Small, Alternating Chord Progression, Atmosphere, Spacey, Fast, 4 Bars, 120 BPM, B minor |
Foundation-1-1 最适合与RC Stable Audio Fork 配合使用,该版本针对此模型的元数据和提示词结构进行了优化。
它提供:
在文件夹中,您将找到两个文件:模型本身及其关联的 config.json。
与之前同时提供32位和16位模型的版本不同,本版本仅包含16位版本。
这不会造成任何质量损失,同时减小了模型体积。
Foundation_1.safetensorsmodel_config.jsonmodels 目录内创建一个子文件夹Foundation-1 设计用于在现代 GPU 上本地运行。
生成过程中的典型显存使用量约为 ~7 GB。
为确保稳定运行,建议使用显存至少为 8 GB 的 GPU。
生成速度会因 GPU 型号和系统配置而异。
在 RTX 3090 上,生成一个样本的时间约为 ~7–8 秒。
Foundation-1 的构建围绕结构化样本生成理念,而非通用或基于流派的音频描述。该数据集完全由手工制作和标记的音频组成,通过可控的增强管道生成。
总体而言,训练设计强调:
这种设计是模型实现音乐连贯性和高度声音控制的核心。
有关数据集和训练方法的更多详细信息,请参见 训练与数据集说明。
Foundation-1 是一款专门用于音乐样本生成的模型,而非通用音乐生成器。
重要说明:
该模型还围绕小节(Bars)、每分钟节拍数(BPM)和生成时长之间的特定时间关系进行了优化。
例如:
如果生成时长短于提示所暗示的音乐结构(例如,请求 8 小节循环但仅生成 5 秒),模型可能会产生连贯性较差的音乐乐句。
RC Stable Audio 分支会自动处理这种时间对齐,从而使此工作流更加轻松。
本模型根据 Stability AI 社区许可证授权。它可供非商业用途或年收入低于 100 万美元的实体进行有限商业使用。对于年收入超过 100 万美元的情况,请参阅仓库许可证文件以了解完整条款。
有关该模型和设计理念的更多信息,请观看配套视频:
Foundation-1 旨在作为面向制作人的结构化样本生成基础模型,旨在增强音乐制作而非取代它。
其目标是让用户以新的方式探索声音,同时保持对以下方面的精确控制:
这种音乐结构、乐器特性、音色控制和循环保真度的结合,正是该模型的定义所在。