RubricHub 是一个大规模(约 11 万条数据)、多领域的数据集,为开放式生成任务提供高质量的基于评分标准的监督。该数据集通过自动化的粗到细评分标准生成框架构建而成,该框架整合了原则引导的合成、多模型聚合以及难度演进等技术,生成全面且具有高度区分度的评估标准,从而突破了粗略或静态评分标准的监督上限。在两阶段后训练流程(RuFT + RuRL)中利用 RubricHub,可显著提升开放式推理能力,使 Qwen3-14B 在 HealthBench 上达到 69.3 的最先进性能,超越了多个专有前沿模型。
data_synthesis_final/README.md。RuRL
RuFT
如果您使用此数据集,请引用:
@article{li2026rubrichub,
title={RubricHub: A Comprehensive and Highly Discriminative Rubric Dataset via Automated Coarse-to-Fine Generation},
author={Li, Sunzhu and Zhao, Jiale and Wei, Miteto and Ren, Huimin and Zhou, Yang and Yang, Jingwen and Liu, Shunyu and Zhang, Kaike and Chen, Wei},
journal={arXiv preprint arXiv:2601.08430},
year={2026}
}