HuggingFace镜像/NVIDIA-Nemotron-3-Super-120B-A12B-FP8

NVIDIA-Nemotron-3-Super-120B-A12B-FP8

模型摘要


总参数	1200亿（120亿激活参数）
架构	LatentMoE - Mamba-2 + MoE + 注意力混合架构，结合多令牌预测（MTP）
上下文长度	最长100万令牌
最低GPU要求	2× H100-80GB
支持语言	英语、法语、德语、意大利语、日语、西班牙语、中文
最适场景	智能体工作流、长上下文推理、高容量工作负载（如IT工单自动化）、工具调用、检索增强生成（RAG）
推理模式	可通过聊天模板配置启用/禁用（`enable_thinking=True/False`）
许可证	NVIDIA Nemotron Open Model License
发布日期	2026年3月11日

快速开始

在所有任务和服务后端（推理、工具调用及通用聊天）中，均使用 temperature=1.0 和 top_p=0.95。

有关模型部署和使用的更多详细信息，请参见下方的快速入门指南！

模型概述

模型开发者：NVIDIA Corporation

模型开发时间：2025年12月 - 2026年3月

数据时效性：

训练后数据的截止日期为2026年2月。
预训练数据的截止日期为2025年6月。

什么是Nemotron？

NVIDIA Nemotron™ 是一系列开放模型，包含开放权重、训练数据和训练方案，旨在为构建专业AI智能体提供卓越的效率和准确性。

描述

Nemotron-3-Super-120B-A12B-FP8 是由NVIDIA训练的大型语言模型（LLM），旨在提供强大的智能体能力、推理能力和对话能力。它针对协作智能体和高容量工作负载（如IT工单自动化）进行了优化。与该系列的其他模型一样，它通过首先生成推理轨迹，然后得出最终响应的方式来处理用户查询和任务。模型的推理能力可通过聊天模板中的标志进行配置。

该模型采用混合潜在混合专家（LatentMoE） 架构，利用交错的Mamba-2和MoE层，以及精选的注意力层。与Nano模型不同，Super模型集成了多令牌预测（MTP） 层，以实现更快的文本生成和更高的质量，并使用NVFP4量化技术进行训练，以最大限度地提高计算效率。该模型总共有1200亿参数，其中120亿为激活参数。

支持的语言包括：英语、法语、德语、意大利语、日语、西班牙语和中文

此模型已准备好投入商业使用。

许可协议/使用条款

主导下载条款： 本模型的使用受 NVIDIA Nemotron 开放模型许可协议管辖。

包含 NIM 的主导下载条款： NIM 容器受 NVIDIA 软件许可协议和 AI 产品特定条款管辖。本模型的使用受 NVIDIA Nemotron 开放模型许可协议管辖。

基准测试

基准测试	Nemotron-3-Super	Nemotron-3-Super FP8	Nemotron-3-Super NVFP4
通用知识
MMLU-Pro	83.73	83.63	83.33
推理能力
HMMT Feb25（使用工具）	94.73	94.38	95.36
GPQA（不使用工具）	79.23	79.36	79.42
LiveCodeBench（v6 2024-08↔2025-05）	78.69	78.44	78.44
LiveCodeBench（v5 2024-07↔2024-12）	81.19	80.99	80.56
SciCode（子任务）	42.05	41.38	40.83
HLE（不使用工具）	18.26	17.42	17.42
智能体能力
Terminal Bench（困难子集）	25.78	26.04	24.48
TauBench V2
航空	56.25	56.25	54.75
零售	62.83	63.05	63.38
电信	64.36	63.93	63.27
平均值	61.15	61.07	60.46
聊天与指令遵循
IFBench（提示词）	72.58	72.32	73.30
Scale AI 多挑战	55.23	54.35	52.8
Arena-Hard-V2（困难提示词）	73.88	76.06	76.00
长上下文
AA-LCR	58.31	57.69	58.06
RULER-500 @ 128k（每个任务 500 样本）	96.79	96.85	95.99
RULER-500 @ 256k（每个任务 500 样本）	96.60	96.33	96.52
RULER-500 @ 512k（每个任务 500 样本）	96.09	95.66	96.23
多语言能力
MMLU-ProX（跨语言平均值）	79.35	79.21	79.37

所有评估结果均通过 Nemo Evaluator SDK 收集，对于大多数基准测试，还使用了 Nemo Skills Harness。为确保可复现性，有关评估设置的更多详细信息，请参见 Nemo Evaluator SDK 配置文件夹和 Nemotron 3 Super 复现教程。用于评估的、通过 NVIDIA 的 Nemo Evaluator SDK 打包的 Nemo Skills 开源容器可在此处找到。除 Nemo Skills 外，评估还使用了专用于 Tau-2 Bench（默认提示词）、Terminal Bench Hard（48 个任务）、ScaleAI 多挑战多轮指令遵循以及 Ruler 的开源打包容器。

以下基准测试尚未集成到我们的开源工具中，对于这些测试，我们要么使用了其官方开源实现，要么使用了我们计划在未来开源的内部框架：SWE Bench Verified（OpenHands）、SWE Bench Multilingual（OpenHands）、BrowseComp with Search（使用 Serp API 的内部实现）、Terminal Bench Core 2.0（Harbor）。

部署地域：全球

用例

NVIDIA-Nemotron-3-Super-120B-A12B-FP8 是一款通用推理与对话模型，适用于英语、代码及支持的多语言场景。该模型针对协作型智能体和高容量工作负载进行了优化，供开发人员用于设计 AI 智能体系统、聊天机器人、RAG 系统及其他 AI 驱动的应用。此外，该模型也适用于复杂指令遵循任务和长上下文推理。

发布日期

Hugging Face - 2026 年 3 月 11 日，通过 Hugging Face

参考资料

模型架构

架构类型：Mamba2-Transformer 混合 latent 专家混合体（LatentMoE），带多 token 预测（MTP）
网络架构：Nemotron Hybrid LatentMoE
模型参数数量：总计 1200 亿 / 活跃 120 亿

模型设计

该模型采用 LatentMoE 架构，将 token 投影到更小的 latent 维度以进行专家路由和计算，从而提高每字节的精度。Super 模型使用 NVFP4 量化进行预训练，是 Nemotron 3 系列中首个以此精度训练的模型。大部分线性层的权重、激活和梯度采用 NVFP4，而部分精选层（包括 latent 投影层、MTP 层、QKV/注意力投影层和嵌入层）则保持 BF16 或 MXFP8 精度以确保训练稳定性。模型包含 多 token 预测（MTP） 层，在各预测头间采用共享权重设计。相比独立训练的偏移头，这一设计提升了训练信号质量，通过原生推测解码实现更快推理，并支持在更长草稿长度下进行更稳定的自回归草稿生成。

训练方法

阶段 1：预训练

NVIDIA-Nemotron-3-Super-120B-A12B-Base-BF16 模型使用爬取的以及合成的代码、数学、科学和通用知识数据进行了超过 25T tokens 的预训练。训练利用 NVFP4 量化以提高效率。所有数据集均在本文档的训练和评估数据集部分中披露。预训练语料库的主要部分在 Nemotron-Pre-Training-Datasets 集合中发布。
用于预训练的软件：Megatron-LM

阶段 2：监督微调

模型在合成代码、数学、科学、工具调用、指令遵循、结构化输出和通用知识数据上进行了进一步微调。此阶段整合了旨在支持长程检索和多文档聚合的数据。所有数据集均在本文档的训练和评估数据集部分中披露。微调语料库的主要部分在 Nemotron-Post-Training-v3 集合中发布。Data Designer 是用于准备这些语料库的库之一。

阶段 3：强化学习

模型在数学、代码、科学、指令遵循、多步骤工具使用、多轮对话和结构化输出环境中，使用异步 GRPO（Group Relative Policy Optimization，组相对策略优化）进行了多环境强化学习。它利用了异步 RL 架构，该架构在单独的 GPU 设备上完全解耦训练和推理，并利用飞行中权重更新和 MTP 加速 rollout 生成。通过 RLHF 进一步优化了对话质量。所有数据集均在本文档的“训练和评估数据集”部分中披露。RL 环境和数据集作为 NeMo Gym 的一部分发布。
用于强化学习的软件：NeMo RL、NeMo Gym

NVIDIA-Nemotron-3-Super-120B-A12B-FP8 模型是上述工作的成果。

端到端训练方案可在 NVIDIA Nemotron Developer Repository 中获取。评估结果可使用 NeMo Evaluator SDK 复现。Data Designer 是用于准备预训练和训练后数据集的库之一。有关数据集和合成数据生成方法的更多详细信息，请参见技术报告 NVIDIA Nemotron 3 Super Technical Report。

输入

输入类型： 文本
输入格式： 字符串
输入参数： 一维（1D）：序列
与输入相关的其他属性： 最大上下文长度可达 100 万 tokens。支持的语言包括：英语、法语、德语、意大利语、日语、西班牙语和中文

输出

输出类型： 文本
输出格式： 字符串
输出参数： 一维（1D）：序列
与输出相关的其他属性： 最大上下文长度可达 100 万 tokens

我们的 AI 模型经过专门设计和优化，可在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件（例如 GPU 核心）和软件框架（例如 CUDA 库），与仅使用 CPU 的解决方案相比，该模型实现了更快的训练和推理时间。

软件集成

运行时引擎：NeMo 25.11.01
支持的硬件微架构兼容性：NVIDIA Ampere - A100；NVIDIA Blackwell；NVIDIA Hopper - H100-80GB
操作系统：Linux

将基础模型和微调模型集成到 AI 系统中，需要使用特定用例的数据进行额外测试，以确保安全有效的部署。遵循 V 模型方法论，在单元级和系统级进行迭代测试和验证至关重要，这有助于在部署前降低风险、满足技术和功能要求，并确保符合安全和道德标准。

模型版本

v1.0 - GA

快速入门指南

对于每个推理后端，您需要自定义的 super_v3 推理解析器。通过以下方式下载：

wget https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8/raw/main/super_v3_reasoning_parser.py

或

curl -O https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8/raw/main/super_v3_reasoning_parser.py

如需高级部署配置，请访问此资源。

vLLM

有关更多详细信息，请参见此使用指南。

pip install vllm==0.18.1
# with uv: uv pip install vllm==0.18.1 --torch-backend=auto

export MODEL_CKPT=nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8

# Optional: --enable-expert-parallel
vllm serve $MODEL_CKPT \
  --served-model-name nvidia/nemotron-3-super \
  --async-scheduling \
  --dtype auto \
  --kv-cache-dtype fp8 \
  --tensor-parallel-size 4 \
  --max-model-len 262144 \
  --enable-expert-parallel \
  --swap-space 0 \
  --trust-remote-code \
  --gpu-memory-utilization 0.9 \
  --max-cudagraph-capture-size 128 \
  --enable-chunked-prefill \
  --mamba-ssm-cache-dtype float32 \
  --reasoning-parser nemotron_v3 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder

上文默认上下文长度为 256k。若要使用最高 1M 的上下文长度，请设置 VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 和 --max-model-len 1048576。

B200/B300 (FP8): FP8 检查点可在单块 GPU 上运行。设置 --tensor-parallel-size 1 并移除 --enable-expert-parallel。其他所有标志保持不变。

SGLang

容器：

docker pull lmsysorg/sglang:nightly-dev-cu13-20260316-d852f26c

如需了解更多详细信息，请参见此使用指南。

sglang serve \
  --model-path nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8 \
  --served-model-name nvidia/nemotron-3-super \
  --trust-remote-code \
  --tp 4 \
  --ep 4 \
  --tool-call-parser qwen3_coder \
  --reasoning-parser nemotron_3

上文默认上下文长度为256k。若要使用高达1M的上下文长度，请设置SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1和--context-length 1048576。

B200/B300 (FP8)：FP8检查点可在单块GPU上运行。设置--tp 1 --ep 1。其他所有标志保持不变。

TRT-LLM

容器：

docker pull nvcr.io/nvidia/tensorrt-llm/release:1.3.0rc8

如需了解更多详细信息，请参见本使用指南。

cat > ./extra-llm-api-config.yml << EOF
kv_cache_config:
  dtype: fp8
  enable_block_reuse: false
  free_gpu_memory_fraction: 0.8
  mamba_ssm_cache_dtype: float16
  mamba_ssm_stochastic_rounding: true
  mamba_ssm_philox_rounds: 5
moe_config:
  backend: TRTLLM
cuda_graph_config:
  enable_padding: true
  max_batch_size: 128
enable_attention_dp: true
enable_chunked_prefill: true
num_postprocess_workers: 4
stream_interval: 10
EOF

trtllm-serve nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8 \
  --host 0.0.0.0 \
  --port 8123 \
  --max_batch_size 128 \
  --tp_size 4 --ep_size 4 \
  --max_num_tokens 8192 \
  --trust_remote_code \
  --reasoning_parser nano-v3 \
  --tool_parser qwen3_coder \
  --extra_llm_api_options extra-llm-api-config.yml

B200/B300 (FP8)：FP8 检查点可在单块 GPU 上运行。设置 --tp_size 1 --ep_size 1 并在配置文件中设置 enable_attention_dp: false。所有其他标志保持不变。

API 客户端

以下示例使用与 OpenAI 兼容的客户端，可与上述任何服务后端配合使用。

注意：对于编码代理，请在 API 调用中添加以下内容 - extra_body={“chat_template_kwargs”: {“force_nonempty_content”: True}

from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")
MODEL = "nvidia/nemotron-3-super"

推理开启（默认）

response = client.chat.completions.create(
    model=MODEL,
    messages=[{"role": "user", "content": "Write a haiku about GPUs"}],
    max_tokens=16000,
    temperature=1.0,
    top_p=0.95,
    extra_body={"chat_template_kwargs": {"enable_thinking": True}}
)
print(response.choices[0].message.content)

推理关闭

response = client.chat.completions.create(
    model=MODEL,
    messages=[{"role": "user", "content": "What is the capital of Japan?"}],
    max_tokens=16000,
    temperature=1.0,
    top_p=0.95,
    extra_body={"chat_template_kwargs": {"enable_thinking": False}}
)
print(response.choices[0].message.content)

低耗推理

使用的推理令牌数量明显少于完整思考模式。建议在调整明确令牌预算前将其作为起点。

response = client.chat.completions.create(
    model=MODEL,
    messages=[{"role": "user", "content": "What is the capital of Japan?"}],
    max_tokens=16000,
    temperature=1.0,
    top_p=0.95,
    extra_body={"chat_template_kwargs": {"enable_thinking": True, "low_effort": True}}
)
print(response.choices[0].message.content)

OpenCode

OpenCode 是一款可在终端运行的 AI 编码代理。它能连接至任何与 OpenAI 兼容的端点，因此可与上述所有三种服务后端（vLLM、SGLang 和 TRT-LLM）兼容。

创建或更新您的 ~/.config/opencode/opencode.json：

{
    "$schema": "https://opencode.ai/config.json",
    "model": "local/nvidia-nemotron-3-super",
    "provider": {
        "local": {
            "npm": "@ai-sdk/openai-compatible",
            "name": "local_backend",
            "options": {
                "baseURL": "http://localhost:8000/v1",
                "apiKey": "EMPTY"
            },
            "models": {
                "nvidia-nemotron-3-super": {
                    "name": "nvidia/nemotron-3-super",
                    "limit": {
                        "context": 1000000,
                        "output": 32768
                    }
                }
            }
        }
    },
    "agent": {
        "build": {
            "temperature": 1.0,
            "top_p": 0.95,
            "max_tokens": 32000
        },
        "plan": {
            "temperature": 1.0,
            "top_p": 0.95,
            "max_tokens": 32000
        }
    }
}

将 baseURL 更新为与您正在运行的后端相匹配。上面的默认端口（8000）与 vLLM 示例匹配；SGLang 和 TRT-LLM 分别使用 30000 和 8123。

要了解更多关于其他受支持的智能体框架，请查看此资源

高级：预算控制推理

使用 reasoning_budget 为推理轨迹设置硬性令牌上限。模型将尝试在预算耗尽前的下一个换行处结束轨迹；如果在 500 个令牌内未找到换行，则会在 reasoning_budget + 500 处突然结束。

from typing import Any, Dict, List
import openai
from transformers import AutoTokenizer


class ThinkingBudgetClient:
    def __init__(self, base_url: str, api_key: str, tokenizer_name_or_path: str):
        self.tokenizer = AutoTokenizer.from_pretrained(tokenizer_name_or_path)
        self.client = openai.OpenAI(base_url=base_url, api_key=api_key)

    def chat_completion(
        self,
        model: str,
        messages: List[Dict[str, Any]],
        reasoning_budget: int = 512,
        max_tokens: int = 1024,
        **kwargs,
    ) -> Dict[str, Any]:
        assert max_tokens > reasoning_budget, (
            f"reasoning_budget must be less than max_tokens. "
            f"Got {max_tokens=} and {reasoning_budget=}"
        )

        # Step 1: generate the reasoning trace up to the budget
        response = self.client.chat.completions.create(
            model=model, messages=messages, max_tokens=reasoning_budget, **kwargs
        )
        reasoning_content = response.choices[0].message.content
        if "" not in reasoning_content:
            reasoning_content = f"{reasoning_content}.\n\n\n"

        reasoning_tokens_len = len(
            self.tokenizer.encode(reasoning_content, add_special_tokens=False)
        )
        remaining_tokens = max_tokens - reasoning_tokens_len
        assert remaining_tokens > 0, (
            f"No tokens remaining for response ({remaining_tokens=}). "
            "Increase max_tokens or lower reasoning_budget."
        )

        # Step 2: continue from the closed reasoning trace
        messages.append({"role": "assistant", "content": reasoning_content})
        prompt = self.tokenizer.apply_chat_template(
            messages, tokenize=False, continue_final_message=True
        )
        response = self.client.completions.create(
            model=model, prompt=prompt, max_tokens=remaining_tokens, **kwargs
        )

        return {
            "reasoning_content": reasoning_content.strip().strip("").strip(),
            "content": response.choices[0].text,
            "finish_reason": response.choices[0].finish_reason,
        }

示例用法（32-token 推理预算）：

client = ThinkingBudgetClient(
    base_url="http://localhost:8000/v1",
    api_key="EMPTY",
    tokenizer_name_or_path="nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8",
)

result = client.chat_completion(
    model="nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8",
    messages=[
        {"role": "system", "content": "You are a helpful assistant. /think"},
        {"role": "user", "content": "What is 2+2?"},
    ],
    reasoning_budget=32,
    max_tokens=512,
    temperature=1.0,
    top_p=0.95,
)
print(result)

训练与评估数据集

训练

数据模态： 文本 总规模： 15,573,172,908,990 个 Token 数据集总数： 153 个 数据集划分： 训练 [100%]、测试 [0%]、验证 [0%] 训练数据收集时间范围： 2013 年至 2026 年 2 月 24 日 测试数据收集时间范围： 2013 年至 2026 年 2 月 24 日 验证数据收集时间范围： 2013 年至 2026 年 2 月 24 日 按数据集划分的数据收集方法： 混合：自动化、人工、合成 按数据集划分的标注方法： 混合：自动化、人工、合成

NVIDIA-Nemotron-3-Super-120B-A12B-FP8 在大规模高质量精选及合成生成数据语料库上进行预训练。其训练语言包括英语，以及其他 19 种自然语言和 43 种编程语言。我们的数据源涵盖多种文档类型，如网页、对话、文章及其他书面材料。该语料库涉及法律、数学、科学、金融等多个领域。我们还纳入了小部分问答和对齐风格数据，以提升模型准确性。该模型的训练量约为 25 万亿个 Token。

NVIDIA-Nemotron-3-Super-120B-A12B-FP8 的训练后语料库包含高质量的精选和合成生成数据。训练后阶段使用的主要语言包括英语、法语、德语、意大利语、日语、西班牙语和中文。

这些数据集（如 FinePDFs、EssentialWeb、HotpotQA、SQuAD 和 HelpSteer3）并未集体或全面地代表所有人口统计群体（及其相应比例）。例如，这些数据集在 64-99% 的样本中不包含明确提及年龄、性别或种族等人口统计类别的内容，具体比例因来源而异。在包含此类术语的子集中，基于文档的数据集（FinePDFs 和 EssentialWeb）存在代表性偏差，例如“男性”的提及次数多于“女性”，“白人”是种族标识符中出现频率最高的（占种族提及的 43-44%）。为减轻这些不平衡，我们建议考虑采用偏差审计、使用人口统计平衡的数据集进行微调以及反事实数据增强等缓解策略，以符合期望的模型行为。本评估在每个数据集上使用了 3,000 个样本的子集，这被确定为最大化嵌入器准确性的最佳阈值。

在训练后阶段，我们通过从强大的教师模型和智能体系统中提取轨迹、解决方案和翻译来生成合成数据，这些数据通常基于真实任务或文档，并经过严格的质量过滤。对于数学、代码和科学领域，我们从精选的问题集出发，使用开源许可模型（如 GPT-OSS-120B）生成逐步推理轨迹、候选解决方案、最佳 n 选择轨迹以及经过验证的 CUDA 内核。对于长上下文和科学领域，我们通过从长文档中检索段落、生成多选题/开放式问答（MCQ/OpenQA）问题与答案，并将其改写为多种提示/响应格式以确保多样性，从而构建合成问答和推理数据。在所有流程中，我们都叠加了自动化验证（编译器、数值检查、语言识别），以确保数据质量。

针对所有领域，我们应用统一的数据过滤流程，确保只有高质量、符合许可要求且可验证的样本用于训练后阶段。我们首先使用结构检查丢弃格式错误的示例（例如，当存在工具调用时缺少工具定义）。然后，我们严格过滤表现出病态重复的推理轨迹，例如在滑动窗口内或整个轨迹中重复出现的 n 元语法，我们发现这是推理格式错误或质量低下的强烈指标。最后，基于对合成生成数据集的内部审计，我们观察到一些教师模型偶尔会生成隐含特定政治实体立场或宣扬民族主义叙事的推理轨迹和最终响应。为缓解此问题，我们应用基于关键词和正则表达式的定向过滤器，并移除所有匹配此类行为的轨迹。

除模型外，我们还发布了本节所述的最终预训练和训练后数据。为便于分析，提供了一个无需权限访问的样本集。对于所有其余的代码、数学和多语言数据，需要权限访问和审批，且该数据集在模型训练用途方面采用宽松许可。

有关数据集和合成数据生成方法的更多详细信息，请参见技术报告 NVIDIA Nemotron 3 Super。

点击查看用于训练的完整数据集目录

基础预训练语料库（Nemotron 3 基础版）

该模型的基础训练基于 Nemotron-3-Nano 语料库，包括以下集合：

数据集集合	Token 数量	描述
Nemotron-CC-v2 和 v2.1	9.13T	从 Common Crawl 筛选出的大规模英语网络数据集合，包含 2.5T 以上新的原生、翻译及合成改写内容的 Token。
Nemotron-CC-Code-v1	427.9B	使用 Lynx + LLM 流程从 Common Crawl 提取的高质量代码 Token，以保留结构和方程式。
Nemotron-Pretraining-Code-v1 和 v2	1.09T	经过多阶段过滤、去重的精选 GitHub 代码参考，以及大规模合成代码数据。
Nemotron-CC-Math-v1	133.3B	保留 LaTeX 格式和数学结构的高质量数学预训练数据集。
Nemotron-Pretraining-Specialized-v1	336.4B	针对 STEM 推理和科学编码等专业领域的合成数据集。

公开数据集

数据集	收集周期
GSM8K	2025年4月23日
CC-NEWS	2025年4月23日
Common Crawl	2025年4月23日
Wikimedia	2025年4月23日
Bespoke-Stratos-17k	2025年4月23日
tigerbot-kaggle-leetcodesolutions-en-2k	2025年4月23日
glaive-function-calling-v2	2025年4月23日
APIGen Function-Calling	2025年4月23日
LMSYS-Chat-1M	2025年4月23日
Open Textbook Library - CC BY-SA & GNU subset 和 OpenStax - CC BY-SA subset	2025年4月23日
Advanced Reasoning Benchmark、tigerbot-kaggle-leetcodesolutions-en-2k、PRM800K 以及 SciBench	2025年4月23日
FineWeb-2	2025年4月23日
Court Listener	历史下载
peS2o	历史下载
OpenWebMath	历史下载
BioRxiv	历史下载
PMC Open Access Subset	历史下载
OpenWebText2	历史下载
Stack Exchange Data Dump	历史下载
PubMed Abstracts	历史下载
NIH ExPorter	历史下载
arXiv	历史下载
BigScience Workshop Datasets	历史下载
Reddit Dataset	历史下载
SEC's Electronic Data Gathering, Analysis, and Retrieval (EDGAR)	历史下载
Advanced Mathematical Problem Solving	历史下载
MathPile	历史下载
NuminaMath CoT	历史下载
PMC Article	历史下载
FLAN	历史下载
Advanced Reasoning Benchmark	历史下载
SciBench	历史下载
WikiTableQuestions	历史下载
FinQA	历史下载
Riddles	历史下载
Problems in Elementary Mathematics for Home Study	历史下载
MedMCQA	历史下载
Cosmos QA	历史下载
MCTest	历史下载
AI2's Reasoning Challenge	历史下载
OpenBookQA	历史下载
MMLU Auxiliary Train	历史下载
social-chemestry-101	历史下载
Moral Stories	历史下载
The Common Pile v0.1	历史下载
FineMath	历史下载
MegaMath	历史下载
MultiverseMathHard	2025年10月2日
News Commentary	2025年10月2日
Essential-Web	2025年10月2日
finepdfs	2025年10月2日
HotpotQA	2025年10月2日
SQuAD2.0	2025年10月2日
NLTK Words Lists	2025年10月2日
来自 Nemotron-Cascade-RL-SWE 的竞技编程强化学习数据	2026年1月10日
NL2Bash	2026年1月10日
SWE-Gym	2026年1月10日
R2E-Gym-Subset	2026年1月10日
SWE-bench_Verified	2026年1月10日

由 NVIDIA 从在线来源抓取和搜集

英文 Common Crawl 数据从 Common Crawl 基金会下载（有关其抓取的详细信息，请参见其常见问题解答），包括快照 CC-MAIN-2013-20 至 CC-MAIN-2025-13。随后，按照 Nemotron-CC 论文中描述的各种方式对数据进行了去重和过滤。此外，我们从以下三个 Common Crawl 快照中提取了十五种语言的数据：CC-MAIN-2024-51、CC-MAIN-2025-08、CC-MAIN-2025-18。这十五种语言包括阿拉伯语、中文、丹麦语、荷兰语、法语、德语、意大利语、日语、韩语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语和泰语。由于我们没有可靠的基于多语言模型的质量分类器，因此我们仅应用了启发式过滤——类似于我们在 Nemotron-CC 流程中对较低质量英文数据所做的处理，但对某些效果不佳的语言有选择地移除了部分过滤器。去重操作与 Nemotron-CC 的方式相同。

GitHub 抓取是使用 GitHub REST API 和 Amazon S3 API 收集的。每次抓取均按照其各自来源（GitHub 或 S3）设定的速率限制进行操作。我们收集原始源代码，随后移除任何不包含在我们的宽松许可证集中的许可证（有关其他详细信息，请参阅技术报告）。

数据集	模态	数据集大小	收集周期	收集机构
English Common Crawl	文本	3.36T	2025年4月8日	NVIDIA Advanced Deep Learning Research
English Common Crawl 1.1	文本	未披露	2025年10月2日	NVIDIA Advanced Deep Learning Research
Multilingual Common Crawl	文本	812.7B	2025年5月1日	NVIDIA Advanced Deep Learning Research
GitHub Crawl	文本	747.4B	2025年4月29日	NVIDIA Advanced Deep Learning Research

第三方私有非公开可访问数据集

数据集	使用的模型
全球法规	未知
TAUS 翻译记忆库	未知
Scale HLE	未知
HackerRank 编程	未知
搜索用强化学习数据	Gemini 3；GPT-5 *

仅用于提示生成的模型

NVIDIA 的私有非公开可访问数据集

数据集	使用的模型
简易扫雷	-
简易数独	-
多工具打字机高级版	-
新闻评论机器翻译和 TAUS 翻译记忆库	-
STEM 机器翻译	Qwen2.5-14B-Instruct
来自 Nemotron Cascade 的竞技编程强化学习数据	-
长上下文强化学习	-
用于补丁生成的单步 SWE 强化学习	-
OpenHands SWE	-

NVIDIA 来源的合成数据集

数据集	模态	数据集大小	种子数据集	用于生成的模型
Nemotron-Pretraining-Formal-Logic	文本	128,022,285	Nemotron Personas	Qwen3-235B-A22B-Thinking-2507
Nemotron-Pretraining-Economics	文本	73,374,154	-	Qwen3-235B-A22B-Thinking-2507
Nemotron-Pretraining-Multiple-Choice	文本	1,609,214,470	MMLU Auxiliary Train	DeepSeek-V3; Qwen3-235B-A22B
Nemotron-Pretraining-Code-Concepts	文本	7,294,510,156	-	gpt-oss-20b; gpt-oss-120b
Nemotron-Pretraining-Unconditional-Algorithmic	文本	196,492,899	-	gpt-oss-120b; Qwen3-235B-A22B
来自 DeepSeek-V3 和 Qwen3-235B-A22B 的合成任务	文本	6.7B	Into the Unknown 的训练拆分；AI2 ARC（AI2 推理挑战）；BLiMP（语言最小对基准）；CommonSenseQA；GLUE；HeadQA；Hendrycks Ethics；Memo Trap；modus-tollens；NeQA；pattern-matching-suppression；mastermind_24_mcq_random；mastermind_24_mcq_close；quote-repetition；redefine-math；Repetitive Algebra；sig-figs；MMLU-Pro；MC-TACO；MedConceptsQA；MMLU_dataset；OpenbooksQA；PIQA（物理交互问答）；SocialIQA；SuperGLUE；tinyAI2_arc；tinyMMLU；tinyWinogrande；TruthfulQA；WebQuestions；Winogrande；GPQA；MBPP	DeepSeek v3; Qwen3-235B-A22B
来自 DeepSeek-R1 的合成解题技巧	文本	40B	解题技巧; 美国数学竞赛 8; 美国数学竞赛 10;	DeepSeek-R1
来自 Mixtral-8x22B-v0.1 的合成道德故事和社会化学	文本	327M	social-chemestry-101; Moral Stories	Mixtral-8x22B-v0.1
以 OpenStax 为种子，来自 DeepSeek-V3、Mixtral-8x22B-v0.1 和 Qwen2.5-72B 的合成社会科学	文本	83.6M	OpenStax - CC BY-SA 子集	DeepSeek-V3; Mixtral-8x22B-v0.1; Qwen2.5-72B
以 OpenStax 为种子，来自 DeepSeek-V3、Mixtral-8x22B-v0.1 和 Qwen2.5-72B 的合成健康科学	文本	9.7M	OpenStax - CC BY-SA 子集	DeepSeek-V3; Mixtral-8x22B-v0.1; Qwen2.5-72B
以 OpenStax、开放教科书图书馆和 GSM8K 为种子，来自 DeepSeek-R1、DeepSeek-V3、DeepSeek-V3-0324 和 Qwen2.5-72B 的合成 STEM	文本	175M	OpenStax - CC BY-SA 子集; GSM8K; 开放教科书图书馆 - CC BY-SA 和 GNU 子集	DeepSeek-R1, DeepSeek-V3; DeepSeek-V3-0324; Qwen2.5-72B
Nemotron-PrismMath	文本	4.6B	Big-Math-RL-Verified; OpenR1-Math-220k	Qwen2.5-0.5B-instruct, Qwen2.5-72B-Instruct; DeepSeek-R1-Distill-Qwen-32B
来自 Qwen2.5-72B-Instruct 的论文和许可书籍的合成问答数据	文本	350M	arXiv; 美国国立卫生研究院 ExPorter; BioRxiv; PMC Article; USPTO Backgrounds; peS2o; 全球法规; CORE; PG-19; DOAB CC BY & CC BY-SA 子集; NDLTD	Qwen2.5-72B-Instruct
来自 phi-4 的刷新版 Nemotron-MIND	文本	73B	Common Crawl	phi-4
Nemotron-CC-Math-4plus	文本	52.3B	Common Crawl	phi-4
Nemotron-CC-Math-3	文本	80.9B	Common Crawl	phi-4
以 AQUA-RAT、LogiQA 和 AR-LSAT 为种子，来自 DeepSeek-V3 和 DeepSeek-V3-0324 的合成 AGIEval	文本	4.0B	AQUA-RAT; LogiQA; AR-LSAT	DeepSeek-V3; DeepSeek-V3-0324
以 AQUA-RAT、LogiQA 和 AR-LSAT 为种子，来自 Qwen3-30B-A3B 的合成 AGIEval	文本	4.2B	AQUA-RAT; LogiQA; AR-LSAT	Qwen3-30B-A3B
来自 Qwen2.5-32B-Instruct、Qwen2.5-Math-72B、Qwen2.5-Math-7B 和 Qwen2.5-72B-Instruct 的合成解题技巧	文本		解题技巧; 美国数学竞赛 8; 美国数学竞赛 10; GSM8K; PRM800K	Qwen2.5-32B-Instruct; Qwen2.5-Math-72B; Qwen2.5-Math-7B; Qwen2.5-72B-Instruct
来自 DeepSeek-R1 的合成 MMLU 辅助训练	文本	0.5B	MMLU Auxiliary Train	DeepSeek-R1
来自 Qwen2.5-72B-Instruct 的论文和许可书籍的合成长上下文持续训练后数据	文本		arXiv; 美国国立卫生研究院 ExPorter; BioRxiv; PMC Article; USPTO Backgrounds; peS2o; 全球法规; CORE; PG-19; DOAB CC BY & CC BY-SA 子集; NDLTD	Qwen2.5-72B-Instruct
来自 Qwen3-30B-A3B 和 Mistral-Nemo-12B-Instruct 的合成 Common Crawl	文本	415.8B	Common Crawl	Qwen3-30B-A3B; Mistral-NeMo-12B-Instruct
来自 Qwen3-30B-A3B 的 Common Crawl 合成多语言数据	文本		Common Crawl	Qwen3-30B-A3B
来自 Qwen3-30B-A3B 的 Wikimedia 合成多语言数据	文本		Wikimedia	Qwen3-30B-A3B
来自 Nemotron-4-340B-Instruct 的 Wikimedia 合成数学数据	文本		-	Nemotron-4-340B-Instruct
来自 phi-4 的合成 Common Crawl 代码	文本	427.9B	Common Crawl	phi-4
来自 Qwen3-235B-A22B 的合成科学编码	文本	1.2B	Wikimedia	Qwen3-235B-A22B
工具调用数据	文本	26.2B		Qwen3-235B-A22B-2507; gpt-oss-120b
来自 QwQ-32B 的合成 Essential-Web	文本	28.1B	Essential-Web	QwQ-32B
翻译的合成抓取数据	文本	389.9B	Common Crawl	Qwen3-30B-A3B
翻译的合成维基百科	文本	7.9B	Wikimedia	Qwen3-30B-A3B
来自 gpt-oss-120b 和 Qwen2.5-32B-Instruct 的合成解题技巧	文本	未披露	解题技巧; 美国数学竞赛 8; 美国数学竞赛 10	gpt-oss-120b; Qwen2.5-32B-Instruct
来自 gpt-oss-120b 和 Qwen2.5-32B-Instruct 的合成 Stack Exchange	文本	未披露	Stack Exchange	gpt-oss-120b; Qwen2.5-32B-Instruct
来自 DeepSeek-R1-0528 的合成 OpenCodeReasoning	文本	未披露	OpenCodeReasoning	DeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成 HackerRank 编程	文本	未披露	HackerRank 编程数据集	DeepSeek-R1-0528
来自 Qwen3-Coder-480B-A35B-Instruct 的合成 SWE-Gym	文本	未披露	SWE-Gym	Qwen3-Coder-480B-A35B-Instruct
来自 gpt-oss-120b、Qwen2.5-32B-Instruct 和 Goedel-Prover-V2-32B 的合成解题技巧和 Stack Exchange	文本	未披露	解题技巧; 美国数学竞赛 8; 美国数学竞赛 10; Stack Exchange	gpt-oss-120b; Qwen2.5-32B-Instruct; Goedel-Prover-V2-32B
来自 DeepSeek-R1、DeepSeek-R1-0528、Qwen2.5-32B-Instruct 和 Qwen3-235B-A22B 的合成多语言科学和代码数据，使用 Qwen2.5-32B-Instruct 和 Qwen2.5-14B-Instruct 翻译	文本	未披露	Stack Exchange; SCP-116K; LIMO; TACO; 代码竞赛; Codeforces	DeepSeek-R1; DeepSeek-R1-0528; Qwen2.5-32B-Instruct; Qwen3-235B-A22B;
来自 DeepSeek-R1-0528、gpt-oss-120b 和 Mixtral-8x7B-v0.1 的合成安全数据	文本	未披露	Nemotron 内容安全数据集 V2; Gretel 合成安全对齐数据集; RedTeam-2K; 恶意任务; Nemotron-Personas-USA	DeepSeek-R1-0528; gpt-oss-120b; Mixtral-8x7B-v0.1
来自 Qwen3-235B-A22B-Instruct-2507 和 gpt-oss-120b 的合成 STEM	文本	未披露	arXiv; 美国国立卫生研究院 ExPorter; BioRxiv; PMC Article; USPTO Backgrounds; peS2o; 全球法规; CORE; PG-19; DOAB CC BY & CC BY-SA 子集; NDLTD	Qwen3-235B-A22B-Instruct-2507; gpt-oss-120b
来自 DeepSeek-R1-0528 的合成 KernelBook	文本	未披露	KernelBook	DeepSeek-R1-0528
来自 Qwen3-235B-A22B-Thinking-2507 和 Qwen3-Next-80B-A3B-Thinking 的合成工具调用	文本	未披露	ToolBench; glaive-function-calling-v2; APIGen Function-Calling; Nemotron-Personas-USA	Qwen3-235B-A22B-Thinking-2507; Qwen3-Next-80B-A3B-Thinking
来自 gpt-oss-120b、Mixtral-8x22B-Instruct-v0.1、Qwen3-235B-A22B-Instruct-2507 和 Qwen3-235B-A22B-Thinking-2507 的合成聊天	文本	未披露	C4; LMSYS-Chat-1M; ShareGPT; GSM8K; PRM800K; FinQA; WikiTableQuestions; Riddles; glaive-function-calling-v2; SciBench; tigerbot-kaggle-leetcodesolutions-en-2k; OpenBookQA; Advanced Reasoning Benchmark; Software Heritage; 可汗学院数学关键词; WildChat-1M; Nemotron-Personas-USA	gpt-oss-120b; Mixtral-8x22B-Instruct-v0.1; Qwen3-235B-A22B-Instruct-2507; Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-235B-A22B-Instruct-2507 的合成长上下文	文本	未披露	CORE; PG-19; DOAB CC BY & CC BY-SA 子集; NDLTD	Qwen3-235B-A22B-Instruct-2507
来自 gpt-oss-120b、DeepSeek-R1-0528、Qwen3-32B 和 Qwen3-235B-A22B-Thinking-2507 的合成工具使用交互式代理	文本	未披露	NVIDIA 内部	gpt-oss-120b; DeepSeek-R1-0528; Qwen3-32B; 和 Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-235B-A22B-Thinking-2507 的合成 STEM	文本	未披露	ICHO-IPH0; Physics Big; Scale HLE; OpenMathReasoning; OpenCodeReasoning	Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-Coder-480B-A35B-Instruct 和 Kimi-K2-Thinking 的合成 DocFinQA 和 SWE-smith	文本	未披露	DocFinQA; SWE-smith	Qwen3-Coder-480B-A35B-Instruct; Kimi-K2-Thinking
来自 gpt-oss-120b 和 Qwen2.5-32B-Instruct 的合成数学数据	文本	未公开	-	gpt-oss-120b; Qwen2.5-32B-Instruct
来自 gpt-oss-120b 的合成 Essential-Web 数据	文本	未公开	Essential-Web	gpt-oss-120b
来自 gpt-oss-120b 的合成 Scale HLE 数据	文本	未公开	Scale HLE	gpt-oss-120b
来自 gpt-oss-120b 的合成 CDQuestions 数据	文本	未公开	CDQuestions	gpt-oss-120b
来自 gpt-oss-120b 的合成 Stack Exchange 数据	文本	未公开	Stack Exchange	gpt-oss-120b
来自 gpt-oss-120b 和 Qwen2.5-32B-Instruct 的合成 GPQA 数据	文本	未公开	Stack Exchange	gpt-oss-120b; Qwen2.5-32B-Instruct
来自 gpt-oss-120b 的合成 Vedantu 数据	文本	未公开	Vedantu	gpt-oss-120b
来自 Qwen3-Coder-480B-A35B-Instruct 的合成 SWE-Gym 和 R2E-Gym-Subset 数据	文本	未公开	SWE-Gym; R2E-Gym-Subset	Qwen3-Coder-480B-A35B-Instruct
来自 Qwen3-Coder-480B-A35B-Instruct 的合成 SWE-Gym 数据	文本	未公开	SWE-Gym	Qwen3-Coder-480B-A35B-Instruct
来自 DeepSeek-R1-0528 的合成 SWE-Gym 和 R2E-Gym-Subset 数据	文本	未公开	SWE-Gym; R2E-Gym-Subset	DeepSeek-R1-0528
来自 gpt-oss-120b、Qwen3-235B-A22B-Instruct-2507 和 Qwen3-235B-A22B-Thinking-2507 的合成 HelpSteer、LMSYS-Chat-1M 和 Nemotron-Personas-USA 数据	文本	未公开	HelpSteer2; HelpSteer3; LMSYS-Chat-1M; Nemotron-Personas-USA	gpt-oss-120b; Qwen3-235B-A22B-Instruct-2507; Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-30B-A3B-Instruct-2507、Qwen3-30B-A3B-Thinking-2507、Qwen3-235B-A22B-Instruct-2507 和 Qwen3-235B-A22B-Thinking-2507 的合成结构化输出数据	文本	未公开	-	Qwen3-30B-A3B-Instruct-2507; Qwen3-30B-A3B-Thinking-2507; Qwen3-235B-A22B-Instruct-2507; Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-235B-A22B 和 DeepSeek-R1-0528 的合成搜索 STEM MCQ 数据	文本	未公开	-	Qwen3-235B-A22B; DeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成搜索 STEM OPENQ 数据	文本	未公开	-	DeepSeek-R1-0528
来自 Qwen2.5-32B-Instruct 和 DeepSeek-R1-0528 的合成 OpenSTEM 数据	文本	未公开	-	Qwen2.5-32B-Instruct; DeepSeek-R1-0528
来自 Qwen2.5-32B-Instruct 和 DeepSeek-R1-0528 的合成 MCQ 数据	文本	未公开	-	Qwen2.5-32B-Instruct; DeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成 MCQ10 数据	文本	未公开	-	DeepSeek-R1-0528
来自 Qwen3-235B-A22B、DeepSeek-R1-0528 和 Qwen3-235B-A22B-Instruct-2507 的合成 MCQ4 数据	文本	未公开	-	Qwen3-235B-A22B; DeepSeek-R1-0528; Qwen3-235B-A22B-Instruct-2507
来自 gpt-oss-120b 和 Qwen2.5-32B-Instruct 的合成 OpenMathReasoning 数据	文本	未公开	OpenMathReasoning	gpt-oss-120b; Qwen2.5-32B-Instruct
来自 DeepSeek-R1-0528 的合成离线搜索 MCQA HLE 数据	文本	未公开	-	DeepSeek-R1-0528
来自 Qwen3-235B-A22B 和 DeepSeek-R1-0528 的合成离线搜索 MCQA GPQA 数据	文本	未公开	-	Qwen3-235B-A22B; DeepSeek-R1-0528
来自 QwQ-32B、Qwen3-30B-A3B、Qwen3-235B-A22B、Qwen3-235B-A22B-Instruct-2507、Mistral-Small-3.1-24B-Instruct-2503、Mistral-Small-3.2-24B-Instruct-2506、MiniMax-M1-80k、MiniMax-M1-40k、Kimi-K2-Instruct、DeepSeek-V3-0324、DeepSeek-R1-0528 的合成人类偏好数据	文本	未公开	-	QwQ-32B; Qwen3-30B-A3B; Qwen3-235B-A22B; Qwen3-235B-A22B-Instruct-2507; Mistral-Small-3.1-24B-Instruct-2503; Mistral-Small-3.2-24B-Instruct-2506; MiniMax-M1-80k; MiniMax-M1-40k; Kimi-K2-Instruct; DeepSeek-V3-0324; DeepSeek-R1-0528
来自 DeepSeek-R1、gemma-2-2b-it、gemma-3-27b-it、gpt-oss-20b、gpt-oss-120b、Mistral-7B-Instruct-v0.3、Mixtral-8x22B-Instruct-v0.1、Nemotron-4-340B-Instruct、NVIDIA-Nemotron-Nano-9B-v2、Phi-4-mini-instruct、Phi-3-small-8k-instruct、Phi-3-medium-4k-instruct、Qwen3-235B-A22B、QwQ-32B 的合成 WildChat-1M 和 arena-human-preference-140k 数据	文本	未公开	WildChat-1M; arena-human-preference-140k	DeepSeek-R1; gemma-2-2b-it; gemma-3-27b-it; gpt-oss-20b; gpt-oss-120b; Mistral-7B-Instruct-v0.3; Mixtral-8x22B-Instruct-v0.1; Nemotron-4-340B-Instruct; NVIDIA-Nemotron-Nano-9B-v2; Phi-4-mini-instruct; Phi-3-small-8k-instruct; Phi-3-medium-4k-instruct; Qwen3-235B-A22B; QwQ-32B
来自 DeepSeek-R1-0528、gpt-oss-120b、DeepSeek-R1-Distill-Qwen-7B 和 Mixtral-8x7B-v0.1 的合成安全数据	文本	未公开	Nemotron Content Safety Dataset V2; Gretel Synthetic Safety Alignment Dataset; RedTeam-2K; Malicious Tasks;	DeepSeek-R1-0528; gpt-oss-120b; DeepSeek-R1-Distill-Qwen-7B; Qwen3-30B-A3B-Thinking-2507; Qwen3-235B-A22B-Instruct-2507; Mixtral-8x7B-v0.1
来自 Qwen3-32B 的合成代码数据	文本	未公开	English Common Crawl; English Common Crawl 1.1	Qwen3-32B
来自 DeepSeek-R1 的合成 OpenCodeReasoning 数据	文本	未公开	OpenCodeReasoning	DeepSeek-R1
来自 DeepSeek-R1-0528 的合成 LIMO 数据	文本	未公开	LIMO	DeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成 SCP 数据	文本	未公开	SCP-116K	DeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成 Stack Exchange 数据	文本	未公开	Stack Exchange	DeepSeek-R1-0528
来自 Qwen3-30B-A3B 的合成 Common Crawl 数据	文本	未公开	Common Crawl	Qwen3-30B-A3B
来自 Qwen3-30B-A3B 的合成 Wikipedia 数据	文本	未公开	Wikimedia	Qwen3-30B-A3B
来自 Qwen3-30B-A3B 和 Qwen3-235B-A22B-Thinking-2507 的合成 Essential-Web 数据	文本	未公开	Essential-Web	Qwen3-30B-A3B; Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-30B-A3B、Qwen3-235B-A22B、phi-4 的合成教科书数学数据	文本	未公开	Common Crawl; FineMath	Qwen3-30B-A3B; Qwen3-235B-A22B; phi-4
来自 DeepSeek-R1 和 DeepSeek-R1-0528 的合成数学与代码数据	文本	未公开	Magicoder-Evol-Instruct-110K; opc-sft-stage2; TACO; OpenCodeReasoning; OpenMathReasoning; NuminaMath CoT	DeepSeek-R1; DeepSeek-R1-0528
来自 gpt-oss-120b 和 Qwen3-8B 的合成 Nemotron-Personas-USA 数据	文本	未公开	Nemotron-Personas-USA	gpt-oss-120b; Qwen3-8B
合成 Text-To-SQL 数据	文本	未公开	-	gpt-oss-120b
合成 Agentless SWE 数据	文本	未公开	SWE-Bench-Train; SWE-Fixer-Train; SWE-reBench; SWE-smith	DeepSeek-R1-0528
合成搜索图游走数据	文本	未公开	-	MiniMax-M2
合成 CUDA 100k 数据	文本	未公开	KernelBook; HuggingFace Transformers; FlashInfer	DeepSeek-R1-0528; gpt-oss-120b
合成安全数据	文本	未公开	Nemotron Content Safety Dataset V2; Gretel Synthetic Safety Alignment Dataset; RedTeam-2K; HarmfulTasks	gpt-oss-120b; NVIDIA-Nemotron-Nano-9B-v2; gemma-3-4b-it
合成智能体多样化领域数据	文本	未公开	-	DeepSeek-R1-0528; Qwen3-235B-A22B-Thinking-2507; Qwen3-235B-A22B-Instruct-2507; Qwen3-32B; gpt-oss-120b; DeepSeek-V3.2
合成 SWE 未验证数据	文本	未公开	-	gpt-oss-120b; Qwen3-Coder-480B-A35B-Instruct; GLM-4.7-Flash
来自 Deepseek-V3 的合成 Scale HLE 数据	文本	未公开	Scale HLE	DeepSeek-V3-0324
来自 Deepseek-V3 的合成 CDQuestions 数据	文本	未公开	CDQuestions	DeepSeek-V3-0324
来自 Deepseek-V3 的合成 Stack Exchange 数据	文本	未公开	Stack Exchange	DeepSeek-V3-0324
来自 Deepseek-V3 的合成 GPQA 数据	文本	未公开	Stack Exchange	DeepSeek-V3-0324
来自 Deepseek-V3 的合成 Vedantu 数据	文本	未公开	Vedantu	DeepSeek-V3-0324
用于 RL 的合成工具调用模式数据	文本	未公开	ToolBench; glaive-function-calling-v2; APIGen Function-Calling; Nemotron-Personas-USA	Qwen3-235B-A22B-Thinking-2507; Qwen3-Next-80B-A3B-Thinking
用于搜索的合成数据	文本	未公开	Wikimedia	MiniMax-M2
用于 RL 的合成指令跟随数据	文本	未公开	-	NVIDIA-Nemotron-Nano-9B-v2; Qwen3-235B-A22B-Thinking-2507
合成对话式智能体工具使用 RL 数据	文本	未公开	-	DeepSeek-V3.2; DeepSeek-R1-0528; Qwen3-235B-A22B-Thinking-2507; Qwen3-32B; gpt-oss-120b; Qwen3-235B-A22B-Instruct-2507
合成终端枢纽 RL 数据	文本	未公开	SWE-smith; Nemotron-Cascade-RL-SWE; Vendor supplied	DeepSeek-V3.2; Qwen3-Coder-480B-A35B-Instruct; Kimi-K2.5; Qwen3-235B-A22B-Instruct-2507

训练后语言分布

在我们的训练后方案中，除英语外，我们还重点关注了9种主要语言：法语、德语、意大利语、日语、西班牙语和中文。

这些语言以多语言推理和翻译任务的形式呈现。

下表展示了我们针对6种语言和5个翻译语言对的样本分布情况。

语言	规模
English	13.48M
Italian	53k
German	53k
Spanish	53k
French	53k
Japanese	53k
Chinese	53k
English <-> Italian	43.2k
English <-> German	43.2k
English <-> Spanish	43.2k
English <-> French	43.2k
English <-> Japanese	43.2k

评估数据集

按数据集划分的数据收集方法：混合：人工、合成
按数据集划分的标注方法：混合：自动化、人工、合成

推理

加速引擎：PyTorch
测试硬件：
- NVIDIA Hopper
  - 1-8x H100
  - 1-8x H200
- NVIDIA Grace Blackwell
  - GB200

伦理考量

NVIDIA 认为可信 AI 是一项共同责任，我们已制定相关政策和实践，以支持各类 AI 应用的开发。当开发者按照我们的服务条款下载或使用本模型时，应与内部模型团队合作，确保该模型满足相关行业和用例的要求，并应对意外的产品滥用问题。

我们建议不要规避模型中包含的任何安全防护措施，除非为您的用例设置了实质上类似的防护措施。更多详情：安全和可解释性子卡片。

有关此模型伦理考量的更多详细信息，请参阅 Model Card++ 的偏见和隐私子卡片。

如发现模型质量、风险、安全漏洞或 NVIDIA AI 相关问题，请通过此处报告。

引用

@misc{nvidia_nemotron_3_2025,
  title  = {NVIDIA Nemotron 3: Efficient and Open Intelligence},
  author = {{NVIDIA}},
  year   = {2025},
  url    = {https://arxiv.org/abs/2512.20856},
  note   = {White Paper}
}