[📄 论文]
ERNIE-Image-Aes 是一款 80 亿参数的视觉-语言图像美学评分模型,基于 ArtiMuse 初始化,并在多样化的专业标注数据集上进行了微调。在不同图像类别的泛化能力方面,它显著优于现有的美学预测模型(LAION-AES、ArtiMuse、UniPercept)。
核心优势:
现有美学预测模型普遍存在系统性偏见:
| 模型 | 偏见 |
|---|---|
| LAION-Aesthetic | 对 AI 生成/动漫内容的评分过高 |
| ArtiMuse | 对黑白摄影和日常随意快照的评分过高 |
| UniPercept | 对单色图像有强烈偏好;对随意快照评分过高 |
ERNIE-Image-Aes 通过专门构建的、具有明确类别平衡的标注流程,解决了这些问题。
| 模型 | SRCC | PLCC |
|---|---|---|
| LAION AES | 0.2944 | 0.3138 |
| ArtiMuse | 0.4277 | 0.4704 |
| UniPercept | 0.4533 | 0.4748 |
| ERNIE-Image-Aes | 0.7445 | 0.7598 |
标注协议:
请按照 ArtiMuse 仓库 中的设置说明进行操作。
本研究基于 ArtiMuse 和 InternVL-3 开发。我们衷心感谢这些项目的作者为社区所做出的卓越贡献。
如果您觉得本研究对您的工作有所帮助,请考虑引用:
undefined