项目主页 | Hugging Face | 魔搭社区 | 在线演示 | Discord | 技术报告
这是 ACE-Step 1.5 的 XL (4B) SFT 版本——一个拥有约 40 亿参数的监督微调模型。SFT 支持分类器无关引导(CFG),可实现细粒度的提示词控制,同时提供更高的音频质量。
| 参数 | 数值 |
|---|---|
| DiT 解码器隐藏层大小 | 2560 |
| DiT 解码器层数 | 32 |
| DiT 解码器注意力头数 | 32 |
| 编码器隐藏层大小 | 2048 |
| 编码器层数 | 8 |
| 总参数量 | ~40 亿 |
| 权重大小(bf16) | ~18.8 GB |
| 推理步数 | 50(带 CFG) |
| 显存 | 支持情况 |
|---|---|
| ≥12 GB | 需开启 CPU 内存卸载 + INT8 量化 |
| ≥16 GB | 需开启 CPU 内存卸载 |
| ≥20 GB | 无需内存卸载 |
| ≥24 GB | 完整质量(XL + 4B 语言模型) |
所有语言模型(0.6B / 1.7B / 4B)均与 XL 版本完全兼容。
# Install ACE-Step
git clone https://github.com/ace-step/ACE-Step-1.5.git
cd ACE-Step-1.5
pip install -e .
# Download this model
huggingface-cli download ACE-Step/acestep-v15-xl-sft --local-dir ./checkpoints/acestep-v15-xl-sft
# Run with Gradio UI
python acestep --config-path acestep-v15-xl-sft| DiT模型 | CFG | 步数 | 质量 | 多样性 | 任务 | Hugging Face | ModelScope |
|---|---|---|---|---|---|---|---|
acestep-v15-xl-base | ✅ | 50 | 高 | 高 | 全部(提取、构建、补全) | 链接 | 链接 |
acestep-v15-xl-sft | ✅ | 50 | 极高 | 中等 | 标准 | 本仓库 | 链接 |
acestep-v15-xl-turbo | ❌ | 8 | 极高 | 中等 | 标准 | 链接 | 链接 |
| 语言模型 | 参数规模 | 音频理解 | 组合能力 | Hugging Face | ModelScope |
|---|---|---|---|---|---|
acestep-5Hz-lm-0.6B | 0.6B | 中等 | 中等 | 链接 | 链接 |
acestep-5Hz-lm-1.7B | 1.7B | 中等 | 中等 | 包含在主模型中 | 包含在主模型中 |
acestep-5Hz-lm-4B | 4B | 强 | 强 | 链接 | 链接 |
本项目由ACE Studio和StepFun联合主导。
@misc{gong2026acestep,
title={ACE-Step 1.5: Pushing the Boundaries of Open-Source Music Generation},
author={Junmin Gong, Yulin Song, Wenxiao Zhao, Sen Wang, Shengyuan Xu, Jing Guo},
howpublished={\url{https://github.com/ace-step/ACE-Step-1.5}},
year={2026},
note={GitHub repository}
}