该模型旨在识别大型语言模型(LLMs)在提示词未通过内容审核时的拒绝输出,将输入分为两类:0 表示正常输出,1 表示检测到拒绝输出。
其在评估集上取得了以下结果:
该模型旨在识别拒绝输出,将输入分为两类:0 表示正常输出,1 表示检测到拒绝输出。
模型的性能取决于训练数据的性质和质量。对于训练集中未包含的文本风格或主题,模型可能无法良好运行。
此外,distilroberta-base 是一个区分大小写的模型。
import argparse
import torch
import numpy as np
from openmind import pipeline, is_torch_npu_available
from openmind import AutoTokenizer, AutoModelForSequenceClassification, pipeline
def parse_args():
parser = argparse.ArgumentParser(description="Eval the model")
parser.add_argument(
"--model_name_or_path",
type=str,
help="path or model",
default="ChongqingAscend/distilroberta-base-rejection-v1",
)
args = parser.parse_args()
return args
def main():
args = parse_args()
model_path = args.model_name_or_path
device = "npu" if is_torch_npu_available() else "cpu"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForSequenceClassification.from_pretrained(model_path)
classifier = pipeline(
"text-classification",
model=model,
tokenizer=tokenizer,
truncation=True,
max_length=512,
device=device,
)
print(classifier("Sorry, but I can't assist with that."))
if __name__ == "__main__":
main()