[!NOTE] 已上传包含我们修复的GGUF文件。更多详情及阅读我们的指南。

查看我们的合集，获取gpt-oss的所有版本，包括GGUF、4位和16位格式。

了解如何正确运行gpt-oss - 阅读我们的指南。

查看Unsloth Dynamic 2.0 GGUFs获取我们的量化基准测试结果。

✨ 阅读我们的gpt-oss指南点击此处！

使用我们的Google Colab笔记本免费微调gpt-oss-20b
阅读我们关于gpt-oss支持的博客：unsloth.ai/blog/gpt-oss
在我们的文档此处查看更多笔记本。
感谢llama.cpp团队对该模型支持所做的工作。没有他们，我们无法发布量化版本！

F32量化版本是将MXFP4逐层上转为BF16，属于非量化版本。

gpt-oss-20b 详情

gpt-oss-20b

试用 gpt-oss · 指南 · 系统卡片 · OpenAI 博客

欢迎了解 gpt-oss 系列，这是 OpenAI 的开源权重模型，专为强大的推理能力、智能体任务和多样化的开发者用例而设计。

我们发布了两种版本的开源模型：

gpt-oss-120b — 适用于生产环境、通用目的、高推理需求的场景，可在单张 H100 GPU 上运行（1170 亿参数，含 51 亿激活参数）
gpt-oss-20b — 适用于低延迟、本地部署或特定场景（210 亿参数，含 36 亿激活参数）

这两款模型均采用我们的 harmony 响应格式进行训练，因此必须配合 harmony 格式使用，否则无法正常工作。

[!NOTE] 本模型卡片专门介绍较小的 gpt-oss-20b 模型。有关较大模型的信息，请查看 gpt-oss-120b。

亮点

宽松的 Apache 2.0 许可证：可自由构建，无 copyleft 限制或专利风险，非常适合实验、定制和商业部署。
可配置的推理力度：可根据具体用例和延迟需求，轻松调整推理力度（低、中、高）。
完整的思维链：完全访问模型的推理过程，便于调试并增强对输出结果的信任。此内容并非为展示给终端用户而设计。
可微调：通过参数微调，可针对特定用例对模型进行全面定制。
智能体能力：利用模型的原生能力进行函数调用、网页浏览、Python 代码执行和结构化输出。
原生 MXFP4 量化：模型在 MoE 层采用原生 MXFP4 精度训练，使得 gpt-oss-120b 可在单张 H100 GPU 上运行，而 gpt-oss-20b 模型可在 16GB 内存内运行。

推理示例

Transformers

您可以将 gpt-oss-120b 和 gpt-oss-20b 与 Transformers 结合使用。如果您使用 Transformers 聊天模板，它将自动应用 harmony response format。如果您直接使用 model.generate，则需要通过聊天模板手动应用 harmony 格式，或者使用我们的 openai-harmony 包。

开始使用前，请安装必要的依赖项以设置您的环境：

pip install -U transformers kernels torch

完成设置后，您可以通过运行以下代码片段来启动模型：

from transformers import pipeline
import torch

model_id = "openai/gpt-oss-20b"

pipe = pipeline(
    "text-generation",
    model=model_id,
    torch_dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "user", "content": "Explain quantum mechanics clearly and concisely."},
]

outputs = pipe(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

或者，你可以通过 Transformers Serve 运行模型，以启动一个与 OpenAI 兼容的网络服务器：

transformers serve
transformers chat localhost:8000 --model-name-or-path openai/gpt-oss-20b

了解更多关于如何结合 Transformers 使用 gpt-oss 的信息。

vLLM

vLLM 推荐使用 uv 进行 Python 依赖管理。您可以使用 vLLM 启动一个兼容 OpenAI 的网络服务器。以下命令将自动下载模型并启动服务器。

uv pip install --pre vllm==0.10.1+gptoss \
    --extra-index-url https://wheels.vllm.ai/gpt-oss/ \
    --extra-index-url https://download.pytorch.org/whl/nightly/cu128 \
    --index-strategy unsafe-best-match

vllm serve openai/gpt-oss-20b

了解如何将 gpt-oss 与 vLLM 结合使用。

PyTorch / Triton

要了解如何将此模型与 PyTorch 和 Triton 配合使用，请查看我们在 gpt-oss 代码库中的参考实现。

Ollama

如果您尝试在消费级硬件上运行 gpt-oss，可在安装 Ollama 后运行以下命令来使用 Ollama。

# gpt-oss-20b
ollama pull gpt-oss:20b
ollama run gpt-oss:20b

了解更多关于如何结合 Ollama 使用 gpt-oss 的信息。

LM Studio

如果您正在使用 LM Studio，可以通过以下命令进行下载。

# gpt-oss-20b
lms get openai/gpt-oss-20b

查看我们的精选列表，获取更多 gpt-oss 资源和推理合作伙伴信息。

下载模型

您可以直接从 Hugging Face Hub Hugging Face Hub 下载模型权重，也可通过 Hugging Face CLI 下载：

# gpt-oss-20b
huggingface-cli download openai/gpt-oss-20b --include "original/*" --local-dir gpt-oss-20b/
pip install gpt-oss
python -m gpt_oss.chat model/

推理级别

您可以根据任务需求在以下三个级别中调整适合的推理级别：

低（Low）：适用于日常对话的快速响应。
中（Medium）：平衡速度与细节的响应。
高（High）：深入且详尽的分析。

推理级别可在系统提示词中设置，例如：“Reasoning: high”。

工具使用

gpt-oss 模型在以下方面表现出色：

网页浏览（使用内置浏览工具）
基于定义模式的函数调用
智能体操作（如浏览器任务）

微调

两款 gpt-oss 模型均可针对多种特定用途进行微调。

较小的模型 gpt-oss-20b 可在消费级硬件上进行微调，而较大的模型 gpt-oss-120b 可在单个 H100 节点上进行微调。

[!NOTE] 已上传包含我们修复的GGUF文件。更多详情及阅读我们的指南。

查看我们的合集，获取gpt-oss的所有版本，包括GGUF、4位和16位格式。

了解如何正确运行gpt-oss - 阅读我们的指南。

查看Unsloth Dynamic 2.0 GGUFs获取我们的量化基准测试结果。

✨ 阅读我们的gpt-oss指南点击此处！

使用我们的Google Colab笔记本免费微调gpt-oss-20b
阅读我们关于gpt-oss支持的博客：unsloth.ai/blog/gpt-oss
在我们的文档此处查看更多笔记本。
感谢llama.cpp团队对该模型支持所做的工作。没有他们，我们无法发布量化版本！

F32量化版本是将MXFP4逐层上转为BF16，属于非量化版本。

gpt-oss-20b 详情

gpt-oss-20b

试用 gpt-oss · 指南 · 系统卡片 · OpenAI 博客

欢迎了解 gpt-oss 系列，这是 OpenAI 的开源权重模型，专为强大的推理能力、智能体任务和多样化的开发者用例而设计。

我们发布了两种版本的开源模型：

gpt-oss-120b — 适用于生产环境、通用目的、高推理需求的场景，可在单张 H100 GPU 上运行（1170 亿参数，含 51 亿激活参数）
gpt-oss-20b — 适用于低延迟、本地部署或特定场景（210 亿参数，含 36 亿激活参数）

这两款模型均采用我们的 harmony 响应格式进行训练，因此必须配合 harmony 格式使用，否则无法正常工作。

[!NOTE] 本模型卡片专门介绍较小的 gpt-oss-20b 模型。有关较大模型的信息，请查看 gpt-oss-120b。

亮点

宽松的 Apache 2.0 许可证：可自由构建，无 copyleft 限制或专利风险，非常适合实验、定制和商业部署。
可配置的推理力度：可根据具体用例和延迟需求，轻松调整推理力度（低、中、高）。
完整的思维链：完全访问模型的推理过程，便于调试并增强对输出结果的信任。此内容并非为展示给终端用户而设计。
可微调：通过参数微调，可针对特定用例对模型进行全面定制。
智能体能力：利用模型的原生能力进行函数调用、网页浏览、Python 代码执行和结构化输出。
原生 MXFP4 量化：模型在 MoE 层采用原生 MXFP4 精度训练，使得 gpt-oss-120b 可在单张 H100 GPU 上运行，而 gpt-oss-20b 模型可在 16GB 内存内运行。

推理示例

Transformers

开始使用前，请安装必要的依赖项以设置您的环境：

pip install -U transformers kernels torch

完成设置后，您可以通过运行以下代码片段来启动模型：

from transformers import pipeline
import torch

model_id = "openai/gpt-oss-20b"

pipe = pipeline(
    "text-generation",
    model=model_id,
    torch_dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "user", "content": "Explain quantum mechanics clearly and concisely."},
]

outputs = pipe(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

或者，你可以通过 Transformers Serve 运行模型，以启动一个与 OpenAI 兼容的网络服务器：

transformers serve
transformers chat localhost:8000 --model-name-or-path openai/gpt-oss-20b

了解更多关于如何结合 Transformers 使用 gpt-oss 的信息。

vLLM

vLLM 推荐使用 uv 进行 Python 依赖管理。您可以使用 vLLM 启动一个兼容 OpenAI 的网络服务器。以下命令将自动下载模型并启动服务器。

uv pip install --pre vllm==0.10.1+gptoss \
    --extra-index-url https://wheels.vllm.ai/gpt-oss/ \
    --extra-index-url https://download.pytorch.org/whl/nightly/cu128 \
    --index-strategy unsafe-best-match

vllm serve openai/gpt-oss-20b

了解如何将 gpt-oss 与 vLLM 结合使用。

PyTorch / Triton

要了解如何将此模型与 PyTorch 和 Triton 配合使用，请查看我们在 gpt-oss 代码库中的参考实现。

Ollama

如果您尝试在消费级硬件上运行 gpt-oss，可在安装 Ollama 后运行以下命令来使用 Ollama。

# gpt-oss-20b
ollama pull gpt-oss:20b
ollama run gpt-oss:20b

了解更多关于如何结合 Ollama 使用 gpt-oss 的信息。

LM Studio

如果您正在使用 LM Studio，可以通过以下命令进行下载。

# gpt-oss-20b
lms get openai/gpt-oss-20b

查看我们的精选列表，获取更多 gpt-oss 资源和推理合作伙伴信息。

下载模型

您可以直接从 Hugging Face Hub Hugging Face Hub 下载模型权重，也可通过 Hugging Face CLI 下载：

# gpt-oss-20b
huggingface-cli download openai/gpt-oss-20b --include "original/*" --local-dir gpt-oss-20b/
pip install gpt-oss
python -m gpt_oss.chat model/

推理级别

您可以根据任务需求在以下三个级别中调整适合的推理级别：

低（Low）：适用于日常对话的快速响应。
中（Medium）：平衡速度与细节的响应。
高（High）：深入且详尽的分析。

推理级别可在系统提示词中设置，例如：“Reasoning: high”。

工具使用

gpt-oss 模型在以下方面表现出色：

网页浏览（使用内置浏览工具）
基于定义模式的函数调用
智能体操作（如浏览器任务）

微调

两款 gpt-oss 模型均可针对多种特定用途进行微调。

较小的模型 gpt-oss-20b 可在消费级硬件上进行微调，而较大的模型 gpt-oss-120b 可在单个 H100 节点上进行微调。

✨ 阅读我们的gpt-oss指南 点击此处！

gpt-oss-20b 详情

亮点

推理示例

Transformers

vLLM

PyTorch / Triton

Ollama

LM Studio

下载模型

推理级别

工具使用

微调

✨ 阅读我们的gpt-oss指南 点击此处！

gpt-oss-20b 详情

亮点

推理示例

Transformers

vLLM

PyTorch / Triton

Ollama

LM Studio

下载模型

推理级别

工具使用

微调

✨ 阅读我们的gpt-oss指南点击此处！

✨ 阅读我们的gpt-oss指南点击此处！