distilroberta-base-rejection-v1 模型卡片

该模型旨在识别大型语言模型（LLMs）在提示词未通过内容审核时的拒绝输出，将输入分为两类：0 表示正常输出，1 表示检测到拒绝输出。

其在评估集上取得了以下结果：

损失（Loss）：0.0544
准确率（Accuracy）：0.9887
召回率（Recall）：0.9810
精确率（Precision）：0.9279
F1 值（F1）：0.9537

预期用途与局限性

该模型旨在识别拒绝输出，将输入分为两类：0 表示正常输出，1 表示检测到拒绝输出。

模型的性能取决于训练数据的性质和质量。对于训练集中未包含的文本风格或主题，模型可能无法良好运行。

此外，distilroberta-base 是一个区分大小写的模型。

模型使用入门

Transformers


import argparse
import torch
import numpy as np
from openmind import pipeline, is_torch_npu_available
from openmind import AutoTokenizer, AutoModelForSequenceClassification, pipeline

def parse_args():
    parser = argparse.ArgumentParser(description="Eval the model")
    parser.add_argument(
        "--model_name_or_path",
        type=str,
        help="path or model",
        default="ChongqingAscend/distilroberta-base-rejection-v1",
    )
    args = parser.parse_args()
    return args


def main():
    args = parse_args()
    model_path = args.model_name_or_path
    device = "npu" if is_torch_npu_available()  else  "cpu"
    tokenizer = AutoTokenizer.from_pretrained(model_path)
    model = AutoModelForSequenceClassification.from_pretrained(model_path)
    
    classifier = pipeline(
      "text-classification",
      model=model,
      tokenizer=tokenizer,
      truncation=True,
      max_length=512,
      device=device,
    )
    
    print(classifier("Sorry, but I can't assist with that."))

if __name__ == "__main__":
    main()