HuggingFace镜像/gpt-oss-safeguard-120b-GGUF
模型介绍文件和版本分析
下载使用量0

Unsloth Dynamic 2.0 实现了卓越的准确性,性能超越其他主流量化方法。

gpt-oss-safeguard-120b

试用 gpt-oss-safeguard · 指南 · 模型卡片 · OpenAI 博客


gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 是基于 gpt-oss 构建的安全推理模型。借助这些模型,您可以根据提供的安全策略对文本内容进行分类,并执行一系列基础安全任务。这些模型专为安全相关使用场景设计。对于其他应用,我们建议使用 gpt-oss 模型。

本模型 gpt-oss-safeguard-120b 可在单块 H100 GPU 上运行(包含 1170 亿参数,其中 51 亿为激活参数)。如需更低延迟,可查看 gpt-oss-safeguard-20b(包含 210 亿参数,其中 36 亿为激活参数)。

两个模型均采用我们的 harmony 响应格式 进行训练,且只能配合 harmony 格式使用,否则将无法正常工作。

亮点

  • 专为安全推理训练:针对安全推理进行训练和调优,可适应LLM输入输出过滤、在线内容标记以及信任与安全场景下的离线标记等使用案例。
  • 自带策略:能够解读您编写的策略,因此只需最少的工程工作即可在不同产品和使用场景中实现通用化。
  • 有理有据的决策,而非仅提供分数:可完全访问模型的推理过程,便于更轻松地进行调试,并增强对策略决策的信任。请注意,Raw CoT专为开发人员和安全从业者设计,不建议向普通用户开放或用于安全场景之外的其他用途。
  • 可配置的推理力度:可根据您的特定使用场景和延迟需求,轻松调整推理力度(低、中、高)。
  • 宽松的Apache 2.0许可:可自由构建,不受copyleft限制或专利风险影响,非常适合实验、定制和商业部署。

推理示例

您可以像使用gpt-oss-120b和gpt-oss-20b一样使用gpt-oss-safeguard-120b和gpt-oss-safeguard-20b,具体方法如我们相应的使用指南中所述。我们还提供了详细的提示词指南,其中提供了如何制定您的策略并将其与模型结合使用的指导原则。

下载模型

如需从Hugging Face hub下载模型权重,请使用与gpt-oss-120b类似的说明。

加入ROOST模型社区

gpt-oss-safeguard是Robust Open Online Safety Tools (ROOST)模型社区的模型合作伙伴。ROOST模型社区(RMC)是由一群安全从业者组成的团体,他们致力于探索开源AI模型以保护在线空间。作为RMC的模型合作伙伴,OpenAI致力于吸收用户反馈,并共同迭代未来版本,以追求开放安全。请访问RMC GitHub repo,了解有关此合作伙伴关系的更多信息以及参与方式。

资源

  • 试用 gpt-oss-safeguard
  • OpenAI 博客