HuggingFace镜像/deberta-v3-large-tasksource-rlhf-reward-model
模型介绍文件和版本分析
下载使用量0

基于deberta-v3-large-tasksource-nli在Anthropic/hh-rlhf上微调的奖励模型

使用1e-5的学习率训练1个epoch。

数据在论文中有描述:Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback。

目前验证准确率是公开报道中最佳的:75.16%(相比之下,OpenAssistant/reward-model-deberta-v3-large-v2为69.25%)。