Visual-ERM

Visual-ERM 是一种用于视觉到代码任务的多模态生成奖励模型。
它直接在渲染视觉空间中评估输出结果，并为结构化视觉重建生成细粒度、可解释且任务无关的差异反馈。

📄 论文 | 💻 GitHub | 📊 VC-RewardBench

模型概述

现有的视觉到代码奖励通常分为两类：

基于文本的奖励，如编辑距离或TEDS，这类方法忽略了布局、间距、对齐和样式等重要视觉线索。
视觉嵌入奖励，如DINO相似度，这类方法通常粒度较粗，且容易受到奖励攻击的影响。

Visual-ERM 通过直接比较以下两者来解决这些问题：

真实图像，以及
由模型预测结果生成的渲染图像，

然后生成结构化差异标注，这些标注可转化为奖励信号或用于基于反思的优化。

模型功能

Visual-ERM 旨在判断预测结果是否与目标视觉等效。

给定一对图像，它能够识别差异，包括：

类别
严重程度
位置
描述

这使得 Visual-ERM 不仅可用作强化学习的奖励模型，还可作为视觉评判器，用于测试时的反思和修正。

支持任务

Visual-ERM 专为结构化视觉重建任务设计，包括：

图表转代码（Chart-to-Code）
表格转Markdown（Table-to-Markdown）
SVG转代码（SVG-to-Code）

核心特性

视觉空间奖励建模
在渲染的视觉空间中评估预测结果，而非仅依赖文本匹配或粗略的嵌入相似度。
细粒度且可解释的反馈
生成结构化的差异标注，而非单一的黑盒分数。
任务无关的奖励监督
一种统一的奖励模型，可跨多种视觉到代码任务进行泛化。
训练与推理双重用途
既可用作强化学习中的奖励模型，也可在测试时作为视觉评判器进行优化。

VC-RewardBench

我们还发布了VisualCritic-RewardBench（VC-RewardBench），这是一个用于评估结构化视觉数据上细粒度图像间差异判断能力的基准测试集。

基准测试集特点

涵盖图表、表格和SVG
包含1,335个精心筛选的实例
每个实例包括：
- 一张真实图像
- 一张经过篡改/渲染的对应图像
- 细粒度的差异标注

数据集链接：
https://huggingface.co/datasets/internlm/VC-RewardBench

如何使用

Visual-ERM 是在Qwen/Qwen3-VL-8B-Instruct基础上进行微调的，并沿用相同的多模态接口。

输入

Visual-ERM 的输入包括：

一张参考/真实图像
一张渲染的预测图像
一个提示词，用于要求模型识别细粒度的视觉差异

输出

模型输出结构化的差异标注，这些标注可用于：

转换为强化学习（RL）的标量奖励
作为反思与修正的反馈
在 VC-RewardBench 上直接进行评估

典型的输出格式如下：

{
  "errors": [
    {
      "category": "structure_error",
      "severity": 3,
      "location": "legend area",
      "description": "The legend is placed outside the plot area in the prediction."
    },
    {
      "category": "style_error",
      "severity": 2,
      "location": "bar colors",
      "description": "The colors differ from those in the reference image."
    }
  ]
}

推理/评估/强化学习

有关完整的推理脚本、强化学习训练流程、评估代码以及提示词模板，请参考官方仓库：

https://github.com/InternLM/Visual-ERM

预期用途

Visual-ERM 旨在用于：

视觉到代码强化学习流程中的奖励建模
目标渲染结果与预测渲染结果之间的视觉差异判断
推理阶段的基于反思的优化
视觉奖励建模及多模态强化学习相关研究

引用

如果您发现此模型对您的研究有用，请考虑引用：

@article{liu2026visual,
  title={Visual-ERM: Reward Modeling for Visual Equivalence},
  author={Liu, Ziyu and Ding, Shengyuan and Fang, Xinyu and Dai, Xuanlang and Yang, Penghui and Liang, Jianze and Wang, Jiaqi and Chen, Kai and Lin, Dahua and Zang, Yuhang},
  journal={arXiv preprint arXiv:2603.13224},
  year={2026}
}

联系方式

如果您对视觉奖励建模、视觉到代码或多模态模型的强化学习感兴趣，欢迎随时联系。