[!NOTE] 已上传包含我们修复的GGUF文件。更多详情及阅读我们的指南。
查看我们的合集,获取gpt-oss的所有版本,包括GGUF、4位和16位格式。
了解如何正确运行gpt-oss - 阅读我们的指南。
查看Unsloth Dynamic 2.0 GGUFs获取我们的量化基准测试结果。
F32量化版本是将MXFP4逐层上转为BF16,属于非量化版本。
试用 gpt-oss · 指南 · 系统卡片 · OpenAI 博客
欢迎了解 gpt-oss 系列,这是 OpenAI 的开源权重模型,专为强大的推理能力、智能体任务和多样化的开发者用例而设计。
我们发布了两种版本的开源模型:
gpt-oss-120b — 适用于生产环境、通用目的、高推理需求的场景,可在单张 H100 GPU 上运行(1170 亿参数,含 51 亿激活参数)gpt-oss-20b — 适用于低延迟、本地部署或特定场景(210 亿参数,含 36 亿激活参数)这两款模型均采用我们的 harmony 响应格式 进行训练,因此必须配合 harmony 格式使用,否则无法正常工作。
[!NOTE] 本模型卡片专门介绍较小的
gpt-oss-20b模型。有关较大模型的信息,请查看gpt-oss-120b。
gpt-oss-120b 可在单张 H100 GPU 上运行,而 gpt-oss-20b 模型可在 16GB 内存内运行。您可以将 gpt-oss-120b 和 gpt-oss-20b 与 Transformers 结合使用。如果您使用 Transformers 聊天模板,它将自动应用 harmony response format。如果您直接使用 model.generate,则需要通过聊天模板手动应用 harmony 格式,或者使用我们的 openai-harmony 包。
开始使用前,请安装必要的依赖项以设置您的环境:
pip install -U transformers kernels torch 完成设置后,您可以通过运行以下代码片段来启动模型:
from transformers import pipeline
import torch
model_id = "openai/gpt-oss-20b"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype="auto",
device_map="auto",
)
messages = [
{"role": "user", "content": "Explain quantum mechanics clearly and concisely."},
]
outputs = pipe(
messages,
max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])或者,你可以通过 Transformers Serve 运行模型,以启动一个与 OpenAI 兼容的网络服务器:
transformers serve
transformers chat localhost:8000 --model-name-or-path openai/gpt-oss-20b了解更多关于如何结合 Transformers 使用 gpt-oss 的信息。
vLLM 推荐使用 uv 进行 Python 依赖管理。您可以使用 vLLM 启动一个兼容 OpenAI 的网络服务器。以下命令将自动下载模型并启动服务器。
uv pip install --pre vllm==0.10.1+gptoss \
--extra-index-url https://wheels.vllm.ai/gpt-oss/ \
--extra-index-url https://download.pytorch.org/whl/nightly/cu128 \
--index-strategy unsafe-best-match
vllm serve openai/gpt-oss-20b要了解如何将此模型与 PyTorch 和 Triton 配合使用,请查看我们在 gpt-oss 代码库中的参考实现。
如果您尝试在消费级硬件上运行 gpt-oss,可在 安装 Ollama 后运行以下命令来使用 Ollama。
# gpt-oss-20b
ollama pull gpt-oss:20b
ollama run gpt-oss:20b了解更多关于如何结合 Ollama 使用 gpt-oss 的信息。
如果您正在使用 LM Studio,可以通过以下命令进行下载。
# gpt-oss-20b
lms get openai/gpt-oss-20b查看我们的 精选列表,获取更多 gpt-oss 资源和推理合作伙伴信息。
您可以直接从 Hugging Face Hub Hugging Face Hub 下载模型权重,也可通过 Hugging Face CLI 下载:
# gpt-oss-20b
huggingface-cli download openai/gpt-oss-20b --include "original/*" --local-dir gpt-oss-20b/
pip install gpt-oss
python -m gpt_oss.chat model/您可以根据任务需求在以下三个级别中调整适合的推理级别:
推理级别可在系统提示词中设置,例如:“Reasoning: high”。
gpt-oss 模型在以下方面表现出色:
两款 gpt-oss 模型均可针对多种特定用途进行微调。
较小的模型 gpt-oss-20b 可在消费级硬件上进行微调,而较大的模型 gpt-oss-120b 可在单个 H100 节点上进行微调。