HuggingFace镜像/acestep-v15-xl-base
模型介绍文件和版本分析
下载使用量0

ACE-Step 1.5 XL — Base (4B DiT)

项目主页 | Hugging Face | ModelScope | 在线演示 | Discord | 技术报告

模型详情

这是 ACE-Step 1.5 的 XL (4B) Base 版本——一个拥有约 40 亿参数的更大 DiT 解码器,旨在提供更高的音频质量。它是支持所有任务的基础模型:文本生成音乐(text-to-music)、音乐翻唱(cover)、音乐重绘(repaint)、音乐提取(extract)、音乐拼接(lego)和音乐补全(complete)。

XL 架构

参数数值
DiT 解码器隐藏层大小2560
DiT 解码器层数32
DiT 解码器注意力头数32
编码器隐藏层大小2048
编码器层数8
总参数量~40 亿
权重大小(bf16)~18.8 GB
推理步数50(带 CFG)

GPU 要求

显存支持情况
≥12 GB需启用 CPU 内存卸载 + INT8 量化
≥16 GB需启用 CPU 内存卸载
≥20 GB无需内存卸载
≥24 GB全质量模式(XL + 4B LM)

所有 LM 模型(0.6B / 1.7B / 4B)均与 XL 版本完全兼容。

核心特性

  • 💰 商业可用: 基于合法合规数据集训练,生成的音乐可用于商业用途。
  • 📚 安全训练数据: 包含授权音乐、免版税/公有领域音乐以及合成(MIDI 转音频)数据。
  • 🎯 全任务支持: 支持文本生成音乐(Text2Music)、音乐翻唱(Cover)、音乐重绘(Repaint)、音乐提取(Extract)、音乐拼接(Lego)、音乐补全(Complete)。
  • 🔮 更高品质: 40 亿参数相比 20 亿参数版本,提供更丰富的音频质量。

快速开始

# Install ACE-Step
git clone https://github.com/ace-step/ACE-Step-1.5.git
cd ACE-Step-1.5
pip install -e .

# Download this model
huggingface-cli download ACE-Step/acestep-v15-xl-base --local-dir ./checkpoints/acestep-v15-xl-base

# Run with Gradio UI
python acestep --config-path acestep-v15-xl-base

模型库

XL(4B)DiT 模型

DiT 模型CFG步数质量多样性任务Hugging FaceModelScope
acestep-v15-xl-base✅50高高全部(提取、搭建、补全)本仓库链接
acestep-v15-xl-sft✅50极高中标准链接链接
acestep-v15-xl-turbo❌8极高中标准链接链接

2B DiT 模型

DiT 模型CFG步数Hugging FaceModelScope
acestep-v15-turbo(默认)❌8链接链接
acestep-v15-sft✅50链接链接
acestep-v15-base✅50链接链接

LM 模型(均与 XL 兼容)

LM 模型参数规模音频理解组合能力Hugging FaceModelScope
acestep-5Hz-lm-0.6B0.6B中中链接链接
acestep-5Hz-lm-1.7B1.7B中中包含在主模型中包含在主模型中
acestep-5Hz-lm-4B4B强强链接链接

致谢

本项目由ACE Studio与StepFun联合主导。

引用

@misc{gong2026acestep,
    title={ACE-Step 1.5: Pushing the Boundaries of Open-Source Music Generation},
    author={Junmin Gong, Yulin Song, Wenxiao Zhao, Sen Wang, Shengyuan Xu, Jing Guo},
    howpublished={\url{https://github.com/ace-step/ACE-Step-1.5}},
    year={2026},
    note={GitHub repository}
}