deberta-v3-large-tasksource-rlhf-reward-model:可用于文本分类任务中的 RLHF 场景，帮助评估文本质量。该项目基于 deberta-v3-large-tasksource-nli 微调，在 Anthropic/hh-rlhf 数据集上训练，验证准确率达 75.16%，为目前公开报告中的最佳结果。【此简介由AI生成】