该模型是 microsoft/deberta-v3-base 在 [promp-injection] 数据集上的微调版本。 其在评估集上取得了以下结果:
本模型用于检测提示词注入尝试,并将其分类为“INJECTION”。合法请求则被分类为“LEGIT”。该数据集假设合法请求包括各类问题或关键词搜索。
如果您使用此模型来保护系统安全,而模型过于“敏感”,将过多请求误判为注入,建议收集合法请求示例,并结合 [promp-injection] 数据集重新训练模型。
import argparse
import torch
from openmind import pipeline, is_torch_npu_available
def parse_args():
parser = argparse.ArgumentParser()
parser.add_argument(
"--model_name_or_path",
default=None,
type=str,
help="Path to model",
required=False,
)
args = parser.parse_args()
return args
if __name__=="__main__":
args = parse_args()
if is_torch_npu_available():
device = "npu:0"
else:
device = "cpu"
#推理
classifier = pipeline('text-classification', model=args.model_name_or_path, device=device)
print(classifier('The camera quality of this phone is amazing.'))基于 [promp-injection] 数据集。
训练过程中使用了以下超参数:
| 训练损失 | 轮次 | 步数 | 验证损失 | 准确率 |
|---|---|---|---|---|
| 无日志 | 1.0 | 69 | 0.2353 | 0.9741 |
| 无日志 | 2.0 | 138 | 0.0894 | 0.9741 |
| 无日志 | 3.0 | 207 | 0.0673 | 0.9914 |
deepset 是生产级开源 AI 框架 Haystack 的开发公司。
我们的其他部分成果:
如需了解更多关于 Haystack 的信息,请访问我们的 GitHub 仓库和 文档。
我们还有一个 向所有人开放的 Discord 社区!
Twitter | LinkedIn | Discord | GitHub Discussions | Website | YouTube
顺便说一下:我们正在招聘!