HuggingFace镜像/ERNIE-Image-Aes
模型介绍文件和版本分析
下载使用量0

ERNIE-Image-Aes: 兼具类别泛化能力的鲁棒图像美学评分模型

[📄 论文]

🌟 突出优势

ERNIE-Image-Aes 是一款 80 亿参数的视觉-语言图像美学评分模型,基于 ArtiMuse 初始化,并在多样化的专业标注数据集上进行了微调。在不同图像类别的泛化能力方面,它显著优于现有的美学预测模型(LAION-AES、ArtiMuse、UniPercept)。

核心优势:

  • 在摄影、动漫、设计、日常快照和胶片摄影等类别上实现均衡预测
  • 对特定图像类型(如 AI 生成内容或黑白照片)无系统性偏见
  • 采用瑞士锦标赛式的成对标注方法,确保高质量的训练标签
  • 在 ERIA-1K 基准测试中达到 0.7445 SRCC 和 0.7598 PLCC

🔍 研究动机

现有美学预测模型普遍存在系统性偏见:

模型偏见
LAION-Aesthetic对 AI 生成/动漫内容的评分过高
ArtiMuse对黑白摄影和日常随意快照的评分过高
UniPercept对单色图像有强烈偏好;对随意快照评分过高

ERNIE-Image-Aes 通过专门构建的、具有明确类别平衡的标注流程,解决了这些问题。

📊 ERIA-1K 基准测试结果

模型SRCCPLCC
LAION AES0.29440.3138
ArtiMuse0.42770.4704
UniPercept0.45330.4748
ERNIE-Image-Aes0.74450.7598

标注协议:

  • 采用成对瑞士制锦标赛方法,确保排名稳定且可复现
  • 等级标签范围为 1 至 10
  • 标注人员均来自专业背景(中央美术学院、四川美术学院、中国传媒大学等)
  • 所有标注人员在参与前均通过美学校准筛选

⚙️ 设置

请按照 ArtiMuse 仓库 中的设置说明进行操作。

🙏 致谢

本研究基于 ArtiMuse 和 InternVL-3 开发。我们衷心感谢这些项目的作者为社区所做出的卓越贡献。

✒️ 引用

如果您觉得本研究对您的工作有所帮助,请考虑引用:

undefined