HuggingFace镜像/acestep-v15-xl-sft
模型介绍文件和版本分析
下载使用量0

ACE-Step 1.5 XL — SFT (4B DiT)

项目主页 | Hugging Face | 魔搭社区 | 在线演示 | Discord | 技术报告

模型详情

这是 ACE-Step 1.5 的 XL (4B) SFT 版本——一个拥有约 40 亿参数的监督微调模型。SFT 支持分类器无关引导(CFG),可实现细粒度的提示词控制,同时提供更高的音频质量。

XL 架构

参数数值
DiT 解码器隐藏层大小2560
DiT 解码器层数32
DiT 解码器注意力头数32
编码器隐藏层大小2048
编码器层数8
总参数量~40 亿
权重大小(bf16)~18.8 GB
推理步数50(带 CFG)

GPU 要求

显存支持情况
≥12 GB需开启 CPU 内存卸载 + INT8 量化
≥16 GB需开启 CPU 内存卸载
≥20 GB无需内存卸载
≥24 GB完整质量(XL + 4B 语言模型)

所有语言模型(0.6B / 1.7B / 4B)均与 XL 版本完全兼容。

核心特性

  • 💰 商业可用: 基于合规数据集训练,生成音乐可用于商业用途。
  • 📚 安全训练数据: 包含授权音乐、免版税/公有领域素材及合成(MIDI 转音频)数据。
  • 🎯 CFG 支持: 通过引导尺度控制,精细调整提示词遵循度。
  • 🔮 最高品质: SFT 技术 + 40 亿参数 = 最高品质版本。

快速开始

# Install ACE-Step
git clone https://github.com/ace-step/ACE-Step-1.5.git
cd ACE-Step-1.5
pip install -e .

# Download this model
huggingface-cli download ACE-Step/acestep-v15-xl-sft --local-dir ./checkpoints/acestep-v15-xl-sft

# Run with Gradio UI
python acestep --config-path acestep-v15-xl-sft

模型库

XL(4B)DiT模型

DiT模型CFG步数质量多样性任务Hugging FaceModelScope
acestep-v15-xl-base✅50高高全部(提取、构建、补全)链接链接
acestep-v15-xl-sft✅50极高中等标准本仓库链接
acestep-v15-xl-turbo❌8极高中等标准链接链接

语言模型(均与XL兼容)

语言模型参数规模音频理解组合能力Hugging FaceModelScope
acestep-5Hz-lm-0.6B0.6B中等中等链接链接
acestep-5Hz-lm-1.7B1.7B中等中等包含在主模型中包含在主模型中
acestep-5Hz-lm-4B4B强强链接链接

致谢

本项目由ACE Studio和StepFun联合主导。

引用

@misc{gong2026acestep,
    title={ACE-Step 1.5: Pushing the Boundaries of Open-Source Music Generation},
    author={Junmin Gong, Yulin Song, Wenxiao Zhao, Sen Wang, Shengyuan Xu, Jing Guo},
    howpublished={\url{https://github.com/ace-step/ACE-Step-1.5}},
    year={2026},
    note={GitHub repository}
}