gpt-oss-safeguard-120b-GGUF:专为安全场景设计，可基于自定义策略分类文本内容，支持安全推理、内容过滤与标签标注。提供可解释的决策过程，支持推理强度调节，Apache 2.0许可，适合安全从业者使用。【此简介由AI生成】

Unsloth Dynamic 2.0 实现了卓越的准确性，性能超越其他主流量化方法。

gpt-oss-safeguard-120b

试用 gpt-oss-safeguard · 指南 · 模型卡片 · OpenAI 博客

gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 是基于 gpt-oss 构建的安全推理模型。借助这些模型，您可以根据提供的安全策略对文本内容进行分类，并执行一系列基础安全任务。这些模型专为安全相关使用场景设计。对于其他应用，我们建议使用 gpt-oss 模型。

本模型 gpt-oss-safeguard-120b 可在单块 H100 GPU 上运行（包含 1170 亿参数，其中 51 亿为激活参数）。如需更低延迟，可查看 gpt-oss-safeguard-20b（包含 210 亿参数，其中 36 亿为激活参数）。

两个模型均采用我们的 harmony 响应格式进行训练，且只能配合 harmony 格式使用，否则将无法正常工作。

亮点

专为安全推理训练：针对安全推理进行训练和调优，可适应LLM输入输出过滤、在线内容标记以及信任与安全场景下的离线标记等使用案例。
自带策略：能够解读您编写的策略，因此只需最少的工程工作即可在不同产品和使用场景中实现通用化。
有理有据的决策，而非仅提供分数：可完全访问模型的推理过程，便于更轻松地进行调试，并增强对策略决策的信任。请注意，Raw CoT专为开发人员和安全从业者设计，不建议向普通用户开放或用于安全场景之外的其他用途。
可配置的推理力度：可根据您的特定使用场景和延迟需求，轻松调整推理力度（低、中、高）。
宽松的Apache 2.0许可：可自由构建，不受copyleft限制或专利风险影响，非常适合实验、定制和商业部署。

推理示例

您可以像使用gpt-oss-120b和gpt-oss-20b一样使用gpt-oss-safeguard-120b和gpt-oss-safeguard-20b，具体方法如我们相应的使用指南中所述。我们还提供了详细的提示词指南，其中提供了如何制定您的策略并将其与模型结合使用的指导原则。

下载模型

如需从Hugging Face hub下载模型权重，请使用与gpt-oss-120b类似的说明。

加入ROOST模型社区

gpt-oss-safeguard是Robust Open Online Safety Tools (ROOST)模型社区的模型合作伙伴。ROOST模型社区（RMC）是由一群安全从业者组成的团体，他们致力于探索开源AI模型以保护在线空间。作为RMC的模型合作伙伴，OpenAI致力于吸收用户反馈，并共同迭代未来版本，以追求开放安全。请访问RMC GitHub repo，了解有关此合作伙伴关系的更多信息以及参与方式。

资源

亮点

专为安全推理训练：针对安全推理进行训练和调优，可适应LLM输入输出过滤、在线内容标记以及信任与安全场景下的离线标记等使用案例。

自带策略：能够解读您编写的策略，因此只需最少的工程工作即可在不同产品和使用场景中实现通用化。

有理有据的决策，而非仅提供分数：可完全访问模型的推理过程，便于更轻松地进行调试，并增强对策略决策的信任。请注意，Raw CoT专为开发人员和安全从业者设计，不建议向普通用户开放或用于安全场景之外的其他用途。

可配置的推理力度：可根据您的特定使用场景和延迟需求，轻松调整推理力度（低、中、高）。

宽松的Apache 2.0许可：可自由构建，不受copyleft限制或专利风险影响，非常适合实验、定制和商业部署。

加入ROOST模型社区