HuggingFace镜像/acestep-captioner
模型介绍文件和版本分析
下载使用量0

技术报告

ACE-Step Captioner

描述

ACE-Step Captioner 是 ACE-Step v1.5 用于训练数据标注的注释模型。它是一款专业级音乐描述模型,可生成详细、结构化的音频内容描述。

性能

🏆 在音乐描述任务中准确率超越 Gemini Pro 2.5

核心功能

  • 🎼 音乐风格分析 - 识别音乐流派、子流派及风格影响因素
  • 🎸 乐器识别 - 检测并描述 1000 多种乐器类型及其组合
  • 🎭 结构与进程 - 分析音乐编排,包括前奏、主歌、副歌、桥段、高潮和尾声
  • 🔊 音色描述 - 捕捉音质特点、纹理和声音特性
  • 📝 丰富词汇 - 支持 1000 多个描述性术语,实现全面的音乐注释

使用方法

使用方法与 Qwen2.5 Omni-7B 相同。

提示词格式

使用以下提示词对音频进行描述:

*Task* Describe this audio in detail
<audio>

输出格式

模型生成涵盖音乐多个方面的自然语言描述。

示例输出

A melancholic indie folk track featuring fingerpicked acoustic guitar 
as the primary instrument. The song opens with a sparse, contemplative 
intro before the vocals enter with a breathy, intimate delivery. 
The arrangement gradually builds through the verse, adding subtle 
string pads and a gentle kick drum. The chorus lifts with layered 
harmonies and a warmer, fuller texture. The bridge introduces a 
key change and emotional climax before returning to the stripped-down 
acoustic arrangement for the outro.

描述能力

音乐风格(示例)

类别风格
电子氛围、科技舞曲、浩室、鼓打贝斯、合成器浪潮、智能舞曲、缓拍
摇滚另类、独立、后摇滚、前卫、迷幻、垃圾摇滚
流行合成器流行、电子流行、梦幻流行、艺术流行、独立流行
古典管弦乐、室内乐、简约主义、新古典、电影配乐
世界音乐拉丁、非洲、中东、亚洲传统、凯尔特
爵士融合爵士、平滑爵士、比波普、调式爵士、自由爵士
嘻哈陷阱、砰砰节拍、低保真、器乐嘻哈、云端说唱

乐器(支持1000+种)

类别示例
弦乐原声吉他、电吉他、小提琴、大提琴、贝斯、竖琴、曼陀林
键盘钢琴、合成器、管风琴、 Rhodes 电钢琴、Wurlitzer 电钢琴、Mellotron 磁带键盘
打击乐架子鼓、电子鼓、康加鼓、邦戈鼓、定音鼓、颤音琴
管乐萨克斯、小号、长笛、单簧管、双簧管、圆号
电子乐器合成贝斯、背景音垫、主奏音色、琶音器、采样器、808鼓机、303贝斯合成器

结构分析

  • 前奏 / 尾奏 - 开场和结束部分
  • 主歌 / 预副歌 / 副歌 - 歌曲主要结构
  • 桥段 / 间奏 - 过渡部分
  • 构建 / 骤降 / 高潮 - 动态发展
  • 插曲 / 独奏 - 器乐段落

音色描述

维度描述词
质感温暖的、明亮的、黑暗的、清脆的、浑浊的、干净的、失真的、饱和的
空间感混响的、干声的、开阔的、亲密的、洞穴般的、紧凑的
动态有力的、柔和的、激进的、轻柔的、压缩的、动态的
特性空灵的、粗粝的、平滑的、原始的、精致的、有机的、合成的

应用场景

  • 音乐AI训练 - 为音乐生成模型生成高质量描述文本
  • 音乐信息检索 - 为音频数据库创建可搜索的元数据
  • 内容审核 - 分析和分类音乐内容
  • 音乐教育 - 提供详细的分析以辅助学习
  • 音频制作 - 记录和描述声音设计元素