deberta-v3-large-tasksource-nli在Anthropic/hh-rlhf上微调的奖励模型使用1e-5的学习率训练1个epoch。
数据在论文中有描述:Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback。
目前验证准确率是公开报道中最佳的:75.16%(相比之下,OpenAssistant/reward-model-deberta-v3-large-v2为69.25%)。