HuggingFace镜像/distilroberta-base-rejection-v1
模型介绍文件和版本分析

distilroberta-base-rejection-v1 模型卡片

该模型旨在识别大型语言模型(LLMs)在提示词未通过内容审核时的拒绝输出,将输入分为两类:0 表示正常输出,1 表示检测到拒绝输出。

其在评估集上取得了以下结果:

  • 损失(Loss):0.0544
  • 准确率(Accuracy):0.9887
  • 召回率(Recall):0.9810
  • 精确率(Precision):0.9279
  • F1 值(F1):0.9537

预期用途与局限性

该模型旨在识别拒绝输出,将输入分为两类:0 表示正常输出,1 表示检测到拒绝输出。

模型的性能取决于训练数据的性质和质量。对于训练集中未包含的文本风格或主题,模型可能无法良好运行。

此外,distilroberta-base 是一个区分大小写的模型。

模型使用入门

Transformers


import argparse
import torch
import numpy as np
from openmind import pipeline, is_torch_npu_available
from openmind import AutoTokenizer, AutoModelForSequenceClassification, pipeline

def parse_args():
    parser = argparse.ArgumentParser(description="Eval the model")
    parser.add_argument(
        "--model_name_or_path",
        type=str,
        help="path or model",
        default="ChongqingAscend/distilroberta-base-rejection-v1",
    )
    args = parser.parse_args()
    return args


def main():
    args = parse_args()
    model_path = args.model_name_or_path
    device = "npu" if is_torch_npu_available()  else  "cpu"
    tokenizer = AutoTokenizer.from_pretrained(model_path)
    model = AutoModelForSequenceClassification.from_pretrained(model_path)
    
    classifier = pipeline(
      "text-classification",
      model=model,
      tokenizer=tokenizer,
      truncation=True,
      max_length=512,
      device=device,
    )
    
    print(classifier("Sorry, but I can't assist with that."))

if __name__ == "__main__":
    main()

下载使用量0