Visual-ERM 是一种用于视觉到代码任务的多模态生成奖励模型。
它直接在渲染视觉空间中评估输出结果,并为结构化视觉重建生成细粒度、可解释且任务无关的差异反馈。
📄 论文 | 💻 GitHub | 📊 VC-RewardBench
现有的视觉到代码奖励通常分为两类:
Visual-ERM 通过直接比较以下两者来解决这些问题:
然后生成结构化差异标注,这些标注可转化为奖励信号或用于基于反思的优化。
Visual-ERM 旨在判断预测结果是否与目标视觉等效。
给定一对图像,它能够识别差异,包括:
这使得 Visual-ERM 不仅可用作强化学习的奖励模型,还可作为视觉评判器,用于测试时的反思和修正。
Visual-ERM 专为结构化视觉重建任务设计,包括:
视觉空间奖励建模
在渲染的视觉空间中评估预测结果,而非仅依赖文本匹配或粗略的嵌入相似度。
细粒度且可解释的反馈
生成结构化的差异标注,而非单一的黑盒分数。
任务无关的奖励监督
一种统一的奖励模型,可跨多种视觉到代码任务进行泛化。
训练与推理双重用途
既可用作强化学习中的奖励模型,也可在测试时作为视觉评判器进行优化。
我们还发布了VisualCritic-RewardBench(VC-RewardBench),这是一个用于评估结构化视觉数据上细粒度图像间差异判断能力的基准测试集。
数据集链接:
https://huggingface.co/datasets/internlm/VC-RewardBench
Visual-ERM 是在Qwen/Qwen3-VL-8B-Instruct基础上进行微调的,并沿用相同的多模态接口。
Visual-ERM 的输入包括:
模型输出结构化的差异标注,这些标注可用于:
典型的输出格式如下:
{
"errors": [
{
"category": "structure_error",
"severity": 3,
"location": "legend area",
"description": "The legend is placed outside the plot area in the prediction."
},
{
"category": "style_error",
"severity": 2,
"location": "bar colors",
"description": "The colors differ from those in the reference image."
}
]
}有关完整的推理脚本、强化学习训练流程、评估代码以及提示词模板,请参考官方仓库:
https://github.com/InternLM/Visual-ERM
Visual-ERM 旨在用于:
如果您发现此模型对您的研究有用,请考虑引用:
@article{liu2026visual,
title={Visual-ERM: Reward Modeling for Visual Equivalence},
author={Liu, Ziyu and Ding, Shengyuan and Fang, Xinyu and Dai, Xuanlang and Yang, Penghui and Liang, Jianze and Wang, Jiaqi and Chen, Kai and Lin, Dahua and Zang, Yuhang},
journal={arXiv preprint arXiv:2603.13224},
year={2026}
}如果您对视觉奖励建模、视觉到代码或多模态模型的强化学习感兴趣,欢迎随时联系。