HuggingFace镜像/Foundation-1
模型介绍文件和版本分析
下载使用量0
Foundation-1 Banner

Foundation-1

面向现代音乐制作的结构化文本转采样生成


概述

Foundation-1 是一款围绕音乐结构设计的下一代文本转采样模型。它经过训练,能够将乐器编配、音色、效果器和记谱法理解为独立的可组合控制元素。这使音乐人和制作人不仅能直接控制乐器本身,还能掌控声音特性、乐句表现、音乐感觉和循环结构。

其成果是一个为实际制作流程打造的模型:** tempo 同步、调性感知、小节感知的采样生成**,兼具出色的音乐性、对提示词的强遵循度以及异常高的音色灵活性。

Foundation-1 专为纯采样生成而设计。它擅长生成连贯的音乐循环,这些循环能锁定 tempo 和乐句长度,同时允许跨乐器家族、音色描述符、效果器和基于记谱法的音乐表现进行分层提示。


Foundation-1 的功能

  • 为制作流程生成音乐上连贯的循环
  • 理解 BPM 和小节数,实现结构化循环生成
  • 锁定西方音乐理论中的大调与小调
  • 在提示音阶和调性时支持等音异名
  • 将乐器本体与音色特征分离
  • 通过组合乐器和声音描述符支持音色混合
  • 响应用诸如混响、延迟、失真和调制等效果器标签
  • 采用记谱式提示结构,以促进连贯的乐句划分、旋律线条、节奏表现和和声进行
  • 在支持的 BPM/小节规格内生成完美循环
  • 理解“湿声”与“干声”的制作环境——添加“干声”(Dry)等术语会生成带有最少效果器处理的声音,而“湿声”(Wet)或效果器标签则会产生经过更多处理、具有空间感或特效的声音。

与众不同之处

大多数音频模型能够对“温暖的 pad”或“明亮的合成器”这类宽泛的提示词做出反应,但结果往往不一致。Foundation-1 的设计更进一步,将声音视为一个分层系统:

  1. 乐器家族——声音所属的广义来源类别
  2. 子家族——更具体的乐器角色或本体
  3. 音色标签——音色、频谱或纹理特征
  4. 效果器标签——应用于声音的处理层
  5. 记谱/结构标签——生成乐句的音乐表现

这种分层条件控制方法是 Foundation-1 能够同时实现高音乐性和高提示词控制力的主要原因。


音频展示

提示词音频
Bass, FM Bass, Medium Delay, Medium Reverb, Low Distortion, Phaser, Sub Bass, Bass, Upper Mids, Acid, Gritty, Wide, Dubstep, Thick, Silky, Warm, Rich, Overdriven, Crisp, Deep, Clean, Pitch Bend, 303, 8 Bars, 140 BPM, E minor
Sub Bass, Bass, Gritty, Small, Square, Bass, Dark, Digital, Thick, Clean, Simple, Bassline, Epic, Choppy, Melody, 4 Bars, 150 BPM, G# minor
Flute, Pizzicato, Punchy, Present, Ambient, Nasal, Melody, Epic, Airy, Slow Speed, 8 Bars, 150 BPM, E minor
High Saw, Spacey, Lead, Warm, Silky, Smooth, 303, Synth Lead, Medium Reverb, Low Distortion, Upper Mids, Mids, Pitch Bend, Arp, 8 Bars, 140 BPM, F minor
Trumpet, Warm, Complex Arp Melody, High Reverb, Low Distortion, Smooth, Silky, Texture, 8 Bars, 130 BPM, C minor
Synth, Pad, Chord Progression, Rising, Digital, Bass, Fat, Near, Wide, Silky, Warm, Focused, 8 Bars, 110 BPM, D major
Piccolo, Flute, Airy, Music Box, plucked, complex melody, 8 Bars, 140 BPM, C# minor
Synth Lead, Wavetable Bass, Low Distortion, High Reverb, Sub Bass, Upper Mids, Acid, Gritty, Wide, Thick, Silky, Warm, Rich, Overdriven, Crisp, Clean, 303, Complex, 8 Bars, 140 BPM, F minor
Fiddle, Bowed Strings, Full, Clean, Spacey, Rich, Intimate, Thick, Rolling, Arp, Fast Speed, Complex, 8 Bars, 128 BPM, B minor
Chiptune, Chord Progression, Pulse Wave, Medium Reverb, 8 Bars, 128 BPM, D minor
Kalimba, Mallet, Medium Reverb, Overdriven, Wide, Metallic, Thick, Sparkly, Upper Mids, Bright, Airy, Alternating, Chord Progression, Atmosphere, Spacey, Fast Speed, 8 Bars, 120 BPM, B minor

核心能力

1. 音乐结构

Foundation-1 经过训练,旨在生成结构化的音乐素材,而非完整的音乐作品或通用音色。音乐记谱术语能够引导记谱、和弦进行、旋律、琶音、乐句走向、节奏密度以及其他与音乐相关的表现。

2. 乐器识别

该模型支持广泛的乐器层级,涵盖合成器、键盘、贝斯、弓弦乐器、打击乐器、管乐器、吉他、铜管乐器、人声和弹拨乐器。

3. 音色控制

Foundation-1 不仅限于宽泛的乐器名称。它还能对诸如频谱形状、音调、宽度、密度、织体、亮度、温暖度、颗粒感、空间感以及其他声音特征等音色描述做出响应。

4. 音色混合

由于乐器识别和音色特征并未被简化为单一的扁平标签,因此该模型在音色混合和分层声音提示方面表现尤为出色。

5. 效果器提示

该模型支持专用的效果器层,涵盖多种形式的混响、延迟、失真、移相器和比特率压缩。

6. 循环片段保真度

Foundation-1 专为可直接用于制作的循环片段生成而构建,包括在支持的节拍类型内具备 BPM 感知和小节感知的结构。


条件控制架构

Foundation-1 采用分层标签体系进行训练,旨在提升控制力、可组合性和提示清晰度。

层级概述

  • 主要类别(Major Family) → 宽泛的乐器类别
  • 子类别(Sub-Family) → 更具体的乐器角色
  • 音色标签(Timbre Tags) → 音调/频谱/织体描述符
  • 效果器标签(FX Tags) → 处理层
  • 记谱标签(Notation Tags) → 音乐表现和乐句处理

这使得在不同抽象层级进行提示成为可能。用户可以使用如 Synth(合成器)或 Keys(键盘)等类别级别的宽泛提示,也可以使用 Synth Lead(合成器主音)、Wavetable Bass(波表贝斯)、Grand Piano(三角钢琴)、Violin(小提琴)或 Trumpet(小号)等更具体的术语,然后使用音色和效果器描述符进一步塑造输出。


乐器覆盖范围

主要乐器家族

Foundation-1 针对以下主要乐器家族进行了训练:

  • 合成器(Synth)
  • 键盘(Keys)
  • 贝斯(Bass)
  • 弓弦乐器(Bowed Strings)
  • 打击乐器(Mallet)
  • 管乐器(Wind)
  • 吉他(Guitar)
  • 铜管乐器(Brass)
  • 人声(Vocal)
  • 弹拨弦乐器(Plucked Strings)

子家族覆盖范围

Foundation-1 包含广泛的子家族层级,涵盖与音乐制作相关的各类乐器角色,包括但不限于:

  • 合成主音(Synth Lead)
  • 合成贝斯(Synth Bass)
  • 电钢琴(Digital Piano)
  • 弹拨音色(Pluck)
  • 三角钢琴(Grand Piano)
  • 钟(Bell)
  • 铺底音色(Pad)
  • 氛围音效(Atmosphere)
  • 数字弦乐(Digital Strings)
  • FM 合成器(FM Synth)
  • 小提琴(Violin)
  • 数字管风琴(Digital Organ)
  • 超级锯齿波(Supersaw)
  • 波表贝斯(Wavetable Bass)
  • Rhodes 电钢琴(Rhodes Piano)
  • 大提琴(Cello)
  • 质感音效(Texture)
  • 长笛(Flute)
  • Reese 贝斯(Reese Bass)
  • 波表合成器(Wavetable Synth)
  • 电贝斯(Electric Bass)
  • 马林巴(Marimba)
  • 小号(Trumpet)
  • 排箫(Pan Flute)
  • 合唱团(Choir)
  • 竖琴(Harp)
  • 教堂管风琴(Church Organ)
  • 原声吉他(Acoustic Guitar)
  • 哈蒙德管风琴(Hammond Organ)
  • 钢片琴(Celesta)
  • 颤音琴(Vibraphone)
  • 钟琴(Glockenspiel)
  • 陶笛(Ocarina)
  • 单簧管(Clarinet)
  • 圆号(French Horn)
  • 大号(Tuba)
  • 双簧管(Oboe)
Sub-Family Chart

音色系统

Foundation-1 的主要优势之一在于,它并非将音色视为事后补充。音色特征直接体现在提示系统中,使用户不仅能控制生成的内容,还能控制其听感。

代表性的音色描述词包括:

  • 温暖的(Warm)
  • 明亮的(Bright)
  • 宽广的(Wide)
  • 空灵的(Airy)
  • 厚重的(Thick)
  • 丰富的(Rich)
  • 紧凑的(Tight)
  • 饱满的(Full)
  • 沙哑的(Gritty)
  • 干净的(Clean)
  • 复古的(Retro)
  • 锯齿波(Saw)
  • 清脆的(Crisp)
  • 聚焦的(Focused)
  • 金属感的(Metallic)
  • 芯片音色(Chiptune)
  • 黑暗的(Dark)
  • 303(303)
  • 闪亮的(Shiny)
  • 模拟的(Analog)
  • 突出的(Present)
  • 闪烁的(Sparkly)
  • 氛围的(Ambient)
  • 柔和的(Soft)
  • 平滑的(Smooth)
  • 冰冷的(Cold)
  • 嗡嗡声的(Buzzy)
  • 深沉的(Deep)
  • 共振峰人声(Formant Vocal)
  • 圆润的(Round)
  • 有力的(Punchy)
  • 鼻音的(Nasal)
  • 老式的(Vintage)
  • 低吼(Growl)
  • 呼吸感的(Breathy)
  • 玻璃质感的(Glassy)
  • 嘈杂的(Noisy)
  • 合成人声(Synthetic Vox)
  • 超级锯齿波(Supersaw)
  • 位压缩(Bitcrushed)
  • 梦幻的(Dreamy)
Timbre Chart

为何意义重大

这种标签设计使提示更加灵活。用户不仅可以指定乐器,还能塑造:

  • tonal balance
  • 明暗度(brightness / darkness)
  • 宽窄度/亲密感(width / intimacy)
  • 干净与失真对比(clean vs driven character)
  • 合成与有机质感(synthetic vs organic feel)
  • 瞬态清晰度(transient sharpness)
  • 织体与密度(texture and density)
  • 空间感(spatial character)

这对于希望将输出导向混音中特定角色,而非仅仅使用通用乐器标签的制作人来说尤其有用。

有关所用标签的列表,请参见 标签参考表。


效果器层

Foundation-1 包含专门的效果器描述层,涵盖多种常见的制作效果。

代表性的效果器标签包括:

  • 弱混响(Low Reverb)
  • 中等混响(Medium Reverb)
  • 强混响(High Reverb)
  • 板式混响(Plate Reverb)
  • 短延迟(Low Delay)
  • 中等延迟(Medium Delay)
  • 长延迟(High Delay)
  • 乒乓延迟(Ping Pong Delay)
  • 立体声延迟(Stereo Delay)
  • 交叉延迟(Cross Delay)
  • 单声道延迟(Mono Delay)
  • 弱失真(Low Distortion)
  • 中等失真(Medium Distortion)
  • 强失真(High Distortion)
  • 移相器(Phaser)
  • 弱移相(Low Phaser)
  • 中等移相(Medium Phaser)
  • 强移相(High Phaser)
  • 位压缩(Bitcrush)
  • 强位压缩(High Bitcrush)
FX Chart

音乐记谱与结构

Foundation-1 训练时采用了结构化的音乐描述符,旨在提升乐句连贯性、节奏意图、旋律走向和提示控制力。

这些记谱式提示术语有助于引导:

  • 和弦进行(chord progressions)
  • 旋律(melodies)
  • 主旋律层(top-line layers)
  • 琶音(arpeggios)
  • 乐句走向(phrase direction)
  • 节奏密度(rhythmic density)
  • 和声感觉(harmonic feel)
  • 细分节奏风格(subdivision style)
  • 简单与复杂运动(simple vs complex motion)
  • 持续音与弹拨音特性(sustained vs plucked behavior)
  • 旋律轮廓与速度(melodic contour and pacing)

支持的结构概念示例可能包括以下术语:

  • 和弦进行(chord progression)
  • 旋律(melody)
  • 主旋律(top melody)
  • 琶音(arp)
  • 三连音(triplets)
  • 简单的(simple)
  • 复杂的(complex)
  • 上行(rising)
  • 下行(falling)
  • 扫弦(strummed)
  • 持续音(sustained)
  • 朗朗上口的(catchy)
  • 史诗的(epic)
  • 缓慢的(slow)
  • 快速的(fast)

这种记谱层是 Foundation-1 能够生成异常连贯的音乐素材,而非静态或松散关联乐句的主要原因之一。这些术语可以根据需要混合搭配使用。


音调和时序支持

Foundation-1 专为结构化音乐制作工作流程设计,并支持:

调与调式

  • 大调
  • 小调
  • 等音异名
  • 西方12音半音提示

循环结构

  • 支持的小节长度:4小节、8小节
  • 支持的BPM数值:100 BPM、110 BPM、120 BPM、128 BPM、130 BPM、140 BPM、150 BPM

提示词结构

为获得最佳效果,请使用围绕模型标签构建的丰富提示词。这些标签可根据需要混合搭配。该模型在结构化层次上进行训练,旨在促进音乐上连贯的样本生成。

分层提示词结构

[乐器族/子族],[音色],[音乐表现/记谱法],[效果器],[调],[小节],[BPM]

提示词注意事项

  • 以清晰的乐器身份开头
  • 添加1–3个音色描述词以增强引导性
  • 包含记谱法或音乐结构术语以获得更好的乐句连贯性
  • 务必包含小节和BPM,它们定义音乐循环长度
  • 确保生成时长与请求的音乐结构匹配
  • RC Stable Audio Fork会自动处理此时间对齐

首先谨慎使用效果器和音色标签,在了解模型行为后再逐步增加。


一个提示词→多个输出

下面每一行使用完全相同的提示词,但随机种子不同。
音色标签保持不变,因此整体声音特征保持一致,而旋律和音乐内容在不同生成结果之间有所变化。

>
提示词输出A输出B输出C
Bass, FM Bass, Medium Delay, Medium Reverb, Low Distortion, Phaser, Acid, Gritty, Wide, Dubstep, Thick, Silky, Warm, Rich, Overdriven, Crisp, Deep, Clean, Triplets, 8 Bars, 150 BPM, A minor
Gritty, Acid, Bassline, 303, Synth Lead, FM, Sub, Upper Mids, High Phaser, High Reverb, Pitch Bend, 8 Bars, 140 BPM, E minor
Kalimba, Mallet, Medium Reverb, Overdriven, Wide, Metallic, Thick, Sparkly, Upper Mids, Bright, Airy, Small, Alternating Chord Progression, Atmosphere, Spacey, Fast, 4 Bars, 120 BPM, B minor

推荐工作流程

Foundation-1-1 最适合与RC Stable Audio Fork 配合使用,该版本针对此模型的元数据和提示词结构进行了优化。

它提供:

  • 与训练标签对齐的随机提示词生成
  • 从生成的音频中自动提取MIDI
  • 用于循环生成的自动BPM/小节时间对齐

推荐界面

RC Stable Audio Tools (增强版分支)

Stable Audio Tools (原始仓库)

模型文件

在文件夹中,您将找到两个文件:模型本身及其关联的 config.json。

与之前同时提供32位和16位模型的版本不同,本版本仅包含16位版本。

这不会造成任何质量损失,同时减小了模型体积。

  • Foundation_1.safetensors
  • model_config.json

在 RC 增强版分支中使用的基本设置

  1. 在您的 models 目录内创建一个子文件夹
  2. 将模型检查点和配置文件放入该文件夹
  3. 启动界面
  4. 从用户界面中选择模型
  5. 为获得最佳效果,请使用分层的音乐描述符进行提示

硬件要求

Foundation-1 设计用于在现代 GPU 上本地运行。

生成过程中的典型显存使用量约为 ~7 GB。
为确保稳定运行,建议使用显存至少为 8 GB 的 GPU。

生成性能

生成速度会因 GPU 型号和系统配置而异。

在 RTX 3090 上,生成一个样本的时间约为 ~7–8 秒。


数据集与训练理念

Foundation-1 的构建围绕结构化样本生成理念,而非通用或基于流派的音频描述。该数据集完全由手工制作和标记的音频组成,通过可控的增强管道生成。

总体而言,训练设计强调:

  • 结构化音乐循环
  • 乐器层次结构
  • 明确的音色表示
  • 专用效果描述符
  • 乐谱感知提示术语
  • 强制作性关联
  • 可广泛复用的作曲工作流

这种设计是模型实现音乐连贯性和高度声音控制的核心。

有关数据集和训练方法的更多详细信息,请参见 训练与数据集说明。


局限性

Foundation-1 是一款专门用于音乐样本生成的模型,而非通用音乐生成器。

重要说明:

  • 当使用与训练设计一致的词汇进行提示时,其表现最佳
  • 它针对样本生成工作流进行了优化,而非开放式的流派描述
  • 仅包含两个流派标签(Dubstep Growls 和 Chiptune waveforms),主要用于强化波形特性
  • 提示质量至关重要——结构化的分层提示优于模糊的自然语言
  • 某些音色标签的影响比其他标签更强
  • 特定标签组合可能需要多次尝试才能达到所需的确切音乐角色或音色混合效果
  • 打击乐和鼓声音效不在本版本的范围内

该模型还围绕小节(Bars)、每分钟节拍数(BPM)和生成时长之间的特定时间关系进行了优化。

例如:

  • 100 BPM 下的 8 小节循环 ≈ 19 秒

如果生成时长短于提示所暗示的音乐结构(例如,请求 8 小节循环但仅生成 5 秒),模型可能会产生连贯性较差的音乐乐句。

RC Stable Audio 分支会自动处理这种时间对齐,从而使此工作流更加轻松。


许可证

本模型根据 Stability AI 社区许可证授权。它可供非商业用途或年收入低于 100 万美元的实体进行有限商业使用。对于年收入超过 100 万美元的情况,请参阅仓库许可证文件以了解完整条款。


配套视频

有关该模型和设计理念的更多信息,请观看配套视频:

🎥 观看 Foundation-1 概述和设计理念视频


最终说明

Foundation-1 旨在作为面向制作人的结构化样本生成基础模型,旨在增强音乐制作而非取代它。

其目标是让用户以新的方式探索声音,同时保持对以下方面的精确控制:

  • 声音的本质是什么
  • 它在音乐上如何表现
  • 它在音调上如何定位
  • 它在声音上给人的感觉如何
  • 它如何融入制作工作流

这种音乐结构、乐器特性、音色控制和循环保真度的结合,正是该模型的定义所在。