HuggingFace镜像/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4
模型介绍文件和版本分析
下载使用量0

NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4

Chat Paper Pre-Training Datasets Post-Training Datasets
Homepage Discord
License

模型摘要

总参数1200亿(120亿活跃)
架构LatentMoE - Mamba-2 + MoE + 注意力混合架构,具备多 token 预测(MTP)
上下文长度最长100万 token
最低 GPU 要求1× B200 或 1× DGX Spark
支持语言英语、法语、德语、意大利语、日语、西班牙语、中文
最适场景智能体工作流、长上下文推理、高容量工作负载(如 IT 工单自动化)、工具使用、检索增强生成(RAG)
推理模式可通过聊天模板配置开启/关闭(enable_thinking=True/False)
许可证NVIDIA Nemotron Open Model License
发布日期2026年3月11日

快速开始

在所有任务和服务后端(推理、工具调用及通用聊天)中,均使用 temperature=1.0 和 top_p=0.95。

有关模型部署和使用的更多详情,请参见下方的快速入门指南!

模型概述

模型开发者:NVIDIA Corporation

模型开发周期:2025年12月 - 2026年3月

数据时效性:

  • 训练后数据的截止日期为2026年2月。
  • 预训练数据的截止日期为2025年6月。

什么是 Nemotron?

NVIDIA Nemotron™ 是一系列开源模型,包含开放权重、训练数据和训练方案,旨在为构建专业 AI 智能体提供卓越的效率和准确性。

模型说明

Nemotron-3-Super-120B-A12B-NVFP4 是由 NVIDIA 训练的大型语言模型(LLM),旨在提供强大的智能体能力、推理能力和对话能力。它针对协作智能体和高容量工作负载(如 IT 工单自动化)进行了优化。与该系列的其他模型一样,它在响应用户查询和任务时,会先生成推理过程,然后给出最终回复。模型的推理能力可通过聊天模板中的标志进行配置。

该模型采用混合 Latent Mixture-of-Experts (LatentMoE) 架构,使用交错的 Mamba-2 和 MoE 层,以及精选的注意力层。与 Nano 模型不同,Super 模型集成了 Multi-Token Prediction (MTP) 层,以实现更快的文本生成和更高的质量,并采用 NVFP4 量化技术进行训练,以最大化计算效率。该模型总参数为1200亿,活跃参数为120亿。

支持的语言包括:英语、法语、德语、意大利语、日语、西班牙语和中文

本模型已准备好投入商业使用。

许可协议/使用条款

主导下载条款: 本模型的使用受 NVIDIA Nemotron 开放模型许可协议 管辖。

包含 NIM 的主导下载条款: NIM 容器受 NVIDIA 软件许可协议 和 AI 产品特定条款 管辖。本模型的使用受 NVIDIA Nemotron 开放模型许可协议 管辖。

基准测试

基准测试Nemotron-3-SuperNemotron-3-Super FP8Nemotron-3-Super NVFP4
通用知识
MMLU-Pro83.7383.6383.33
推理能力
HMMT Feb25(使用工具)94.7394.3895.36
GPQA(不使用工具)79.2379.3679.42
LiveCodeBench(v6 2024-08↔2025-05)78.6978.4478.44
LiveCodeBench(v5 2024-07↔2024-12)81.1980.9980.56
SciCode(子任务)42.0541.3840.83
HLE(不使用工具)18.2617.4217.42
智能体能力
Terminal Bench(困难子集)25.7826.0424.48
TauBench V2
航空56.2556.2554.75
零售62.8363.0563.38
电信64.3663.9363.27
平均值61.1561.0760.46
聊天与指令遵循
IFBench(提示词)72.5872.3273.30
Scale AI 多挑战55.2354.3552.8
Arena-Hard-V2(困难提示词)73.8876.0676.00
长上下文
AA-LCR58.3157.6958.06
RULER-500 @ 128k(每个任务 500 样本)96.7996.8595.99
RULER-500 @ 256k(每个任务 500 样本)96.6096.3396.52
RULER-500 @ 512k(每个任务 500 样本)96.0995.6696.23
多语言能力
MMLU-ProX(语言平均值)79.3579.2179.37

所有评估结果均通过 Nemo Evaluator SDK 收集,对于大多数基准测试,还使用了 Nemo Skills Harness。为确保可复现性,有关评估设置的更多详细信息可在 Nemo Evaluator SDK 配置文件夹 和 Nemotron 3 Super 可复现性教程 中找到。用于评估的、通过 NVIDIA Nemo Evaluator SDK 打包的 Nemo Skills 开源容器可在 此处 获取。除 Nemo Skills 外,评估还使用了 Tau-2 Bench(默认提示词)、Terminal Bench Hard(48 个任务)、ScaleAI Multi Challenge 多轮指令遵循以及 Ruler 的专用开源打包容器。

以下基准测试尚未集成到我们的开源工具中,对于这些测试,我们要么使用了其官方开源实现,要么使用了我们计划在未来开源的内部框架:SWE Bench Verified(OpenHands)、SWE Bench Multilingual(OpenHands)、BrowseComp with Search(使用 Serp API 的内部实现)、Terminal Bench Core 2.0(Harbor)。

部署地区:全球

用例

NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 是一款通用推理与对话模型,适用于英语、代码及支持的多语言场景。该模型针对协作型智能体和高容量工作负载进行了优化,旨在供开发人员用于设计 AI 智能体系统、聊天机器人、RAG 系统及其他 AI 驱动的应用程序。此外,该模型也适用于复杂指令遵循任务和长上下文推理。

发布日期

Hugging Face - 2026年3月11日,通过 Hugging Face

参考资料

  • Hugging Face 上的 NVIDIA Nemotron 3 模型系列
  • NVIDIA Nemotron 3 Super 技术报告

模型架构

  • 架构类型:Mamba2-Transformer 混合潜在专家混合体(LatentMoE),带多 token 预测(MTP)
  • 网络架构:Nemotron 混合 LatentMoE
  • 模型参数数量:总计 1200 亿 / 活跃 120 亿

模型设计

该模型采用 LatentMoE 架构,将 token 投影到更小的潜在维度进行专家路由和计算,以提高每字节的精度。Super 模型使用 NVFP4 量化进行预训练,是 Nemotron 3 系列中首个以此精度训练的模型。大部分线性层的权重、激活和梯度采用 NVFP4,而部分选定层(包括潜在投影层、MTP 层、QKV/注意力投影层和嵌入层)则保持 BF16 或 MXFP8 精度以确保训练稳定性。模型包含 多 token 预测(MTP) 层,在各预测头之间采用共享权重设计。这一设计提升了训练信号质量,通过原生推测解码实现更快推理,并支持在更长的草稿长度下进行更稳定的自回归草稿生成,相比独立训练的偏移头表现更优。

训练方法

阶段 1:预训练

  • NVIDIA-Nemotron-3-Super-120B-A12B-Base-BF16 模型使用爬取的以及合成的代码、数学、科学和通用知识数据进行了超过 25T tokens 的预训练。训练利用 NVFP4 量化以提高效率。所有数据集均在本文档的 训练与评估数据集 部分中披露。预训练语料库的主要部分已在 Nemotron-Pre-Training-Datasets 集合中发布。
  • 用于预训练的软件:Megatron-LM

阶段 2:有监督微调

  • 模型在合成代码、数学、科学、工具调用、指令遵循、结构化输出和通用知识数据上进行了进一步微调。此阶段整合了旨在支持长程检索和多文档聚合的数据。所有数据集均在本文档的 训练与评估数据集 部分中披露。微调语料库的主要部分已在 Nemotron-Post-Training-v3 集合中发布。Data Designer 是用于准备这些语料库的库之一。

阶段 3:强化学习

  • 模型在数学、代码、科学、指令遵循、多步骤工具使用、多轮对话和结构化输出环境中,使用异步 GRPO(Group Relative Policy Optimization,组相对策略优化)进行了多环境强化学习。它采用了异步 RL 架构,通过独立的 GPU 设备将训练与推理完全解耦,并利用飞行中权重更新和 MTP 加速 rollout 生成。通过 RLHF(基于人类反馈的强化学习)进一步优化了对话质量。所有数据集均在本文档的“训练与评估数据集”部分中披露。RL 环境和数据集作为 NeMo Gym 的一部分发布。
  • 用于强化学习的软件:NeMo RL、NeMo Gym

NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 模型是上述工作的成果。

端到端训练方案可在 NVIDIA Nemotron 开发者仓库 中获取。评估结果可使用 NeMo Evaluator SDK 复现。Data Designer 是用于准备预训练和后训练数据集的库之一。有关数据集和合成数据生成方法的更多详细信息,请参见技术报告 NVIDIA Nemotron 3 Super Technical Report。

输入

  • 输入类型: 文本
  • 输入格式: 字符串
  • 输入参数: 一维(1D):序列
  • 与输入相关的其他属性: 最大上下文长度可达 100 万 tokens。支持的语言包括:英语、法语、德语、意大利语、日语、西班牙语和中文

输出

  • 输出类型: 文本
  • 输出格式: 字符串
  • 输出参数: 一维(1D):序列
  • 与输出相关的其他属性: 最大上下文长度可达 100 万 tokens

我们的 AI 模型经过专门设计和优化,可在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件(例如 GPU 核心)和软件框架(例如 CUDA 库),与仅使用 CPU 的解决方案相比,该模型实现了更快的训练和推理时间。

软件集成

  • 运行时引擎:NeMo 25.11.01
  • 支持的硬件微架构兼容性:NVIDIA Blackwell
  • 操作系统:Linux

将基础模型和微调模型集成到 AI 系统中时,需要使用特定用例的数据进行额外测试,以确保安全有效的部署。遵循 V 模型方法论,在单元级和系统级进行迭代测试和验证至关重要,这有助于在部署前降低风险、满足技术和功能要求,并确保符合安全与道德标准。

模型版本

  • v1.0 - GA

快速入门指南

对于每个推理后端,您需要自定义的 super_v3 推理解析器。通过以下方式下载:

wget https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4/raw/main/super_v3_reasoning_parser.py

或

curl -O https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4/raw/main/super_v3_reasoning_parser.py

如需高级部署配置,请访问此资源。

vLLM

注意:如需在Spark上运行,请使用以下说明

有关更详细的信息,请参见此使用指南。

pip install vllm==0.20.0

# with uv: uv pip install vllm==0.20.0 --torch-backend=auto

export MODEL_CKPT=nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4
vllm serve $MODEL_CKPT \
  --served-model-name nvidia/nemotron-3-super \
  --async-scheduling \
  --dtype auto \
  --max-model-len 262144 \
  --swap-space 0 \
  --trust-remote-code \
  --kv-cache-dtype fp8 \
  --gpu-memory-utilization 0.9 \
  --max-cudagraph-capture-size 128 \
  --enable-chunked-prefill \
  --mamba-ssm-cache-dtype float16 \
  --reasoning-parser-plugin /app/super_v3_reasoning_parser.py \
  --reasoning-parser super_v3 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder

上文默认上下文长度为 256k。若要使用高达 1M 的上下文长度,请设置 VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 和 --max-model-len 1048576。

DGX Spark 上的 vLLM

要在 NVIDIA DGX Spark 上部署 NVFP4 检查点,请确保您使用的是 vllm/vllm-openai:v0.20.0 容器镜像,并使用以下命令:

docker run --rm -it --gpus all \
  -e VLLM_NVFP4_GEMM_BACKEND=marlin \
  -e VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 \
  -e VLLM_FLASHINFER_ALLREDUCE_BACKEND=trtllm \
  -e VLLM_USE_FLASHINFER_MOE_FP4=0 \
  -e HF_TOKEN=$HF_TOKEN \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -v $(pwd)/super_v3_reasoning_parser.py:/app/super_v3_reasoning_parser.py \
  -p 8000:8000 \
  vllm/vllm-openai:v0.20.0 \
    --model nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
    --served-model-name nvidia/nemotron-3-super \
    --host 0.0.0.0 \
    --port 8000 \
    --async-scheduling \
    --dtype auto \
    --kv-cache-dtype fp8 \
    --tensor-parallel-size 1 \
    --pipeline-parallel-size 1 \
    --data-parallel-size 1 \
    --trust-remote-code \
    --gpu-memory-utilization 0.90 \
    --enable-chunked-prefill \
    --max-num-seqs 4 \
    --max-model-len 1000000 \
    --moe-backend marlin \
    --mamba_ssm_cache_dtype float16 \
    --quantization fp4 \
    --speculative_config '{"method":"mtp","num_speculative_tokens":3,"moe_backend":"triton"}' \
    --reasoning-parser-plugin /app/super_v3_reasoning_parser.py \
    --reasoning-parser super_v3 \
    --enable-auto-tool-choice \
    --tool-call-parser qwen3_coder

SGLang

容器:

docker pull lmsysorg/sglang:dev-cu13-nemotronh-nano-omni-reasoning-v3

如需了解更多详细信息,请参见 此使用指南。

docker run --gpus all -it --rm \
  -p 30000:30000 \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -e HF_TOKEN=$HF_TOKEN \
  --shm-size 16g \
  lmsysorg/sglang:dev-cu13-nemotronh-nano-omni-reasoning-v3 \
  python3 -m sglang.launch_server \
    --model-path nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
    --served-model-name nvidia/nemotron-3-super \
    --host 0.0.0.0 \
    --port 30000 \
    --trust-remote-code \
    --quantization modelopt_fp4 \
    --mem-fraction-static 0.8 \
    --max-running-requests 8 \
    --tool-call-parser qwen3_coder \
    --reasoning-parser nemotron_3 \
    --disable-piecewise-cuda-graph

上文默认上下文长度为 256k。若要使用最高 1M 的上下文长度,请设置 SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 和 --context-length 1048576。

TRT-LLM

容器:

docker pull nvcr.io/nvidia/tensorrt-llm/release:1.3.0rc12

如需了解更详细的信息,请参阅 此使用指南。

cat > extra-llm-api-config.yml << 'EOF'
kv_cache_config:
  dtype: fp8
  enable_block_reuse: false
  free_gpu_memory_fraction: 0.9
  mamba_ssm_cache_dtype: float16
  mamba_ssm_stochastic_rounding: true
  mamba_ssm_philox_rounds: 5
moe_config:
   backend: CUTLASS
cuda_graph_config:
    enable_padding: true
    max_batch_size: 8
enable_attention_dp: false
enable_chunked_prefill: true
stream_interval: 1
print_iter_log: true
speculative_config:
  decoding_type: MTP
  num_nextn_predict_layers: 3
  allow_advanced_sampling: true
EOF

docker run --gpus all -it --rm \
  -p 8123:8123 \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -v "$(pwd)/extra-llm-api-config.yml:/workspace/extra-llm-api-config.yml:ro" \
  -e HF_TOKEN=$HF_TOKEN \
  -e TLLM_ALLOW_LONG_MAX_MODEL_LEN=1 \
  --shm-size 16g \
  --ulimit memlock=-1 --ulimit stack=67108864 \
  -w /workspace \
  nvcr.io/nvidia/tensorrt-llm/release:1.3.0rc12 \
  trtllm-serve nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
    --host 0.0.0.0 \
    --port 8123 \
    --served_model_name nvidia/nemotron-3-super \
    --max_batch_size 8 \
    --tp_size 1 --ep_size 1 \
    --max_num_tokens 8192 \
    --trust_remote_code \
    --reasoning_parser nano-v3 \
    --tool_parser qwen3_coder \
    --extra_llm_api_options /workspace/extra-llm-api-config.yml \
    --max_seq_len 1048576

API 客户端

以下示例使用与 OpenAI 兼容的客户端,可与上述任何服务后端配合使用。

注意:对于编码代理,请在 API 调用中添加以下内容 - extra_body={“chat_template_kwargs”: {“force_nonempty_content”: True}

from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")
MODEL = "nvidia/nemotron-3-super"

推理开启(默认)

response = client.chat.completions.create(
    model=MODEL,
    messages=[{"role": "user", "content": "Write a haiku about GPUs"}],
    max_tokens=16000,
    temperature=1.0,
    top_p=0.95,
    extra_body={"chat_template_kwargs": {"enable_thinking": True}}
)
print(response.choices[0].message.content)

推理关闭

response = client.chat.completions.create(
    model=MODEL,
    messages=[{"role": "user", "content": "What is the capital of Japan?"}],
    max_tokens=16000,
    temperature=1.0,
    top_p=0.95,
    extra_body={"chat_template_kwargs": {"enable_thinking": False}}
)
print(response.choices[0].message.content)

低消耗推理

使用的推理令牌数量明显少于完整思考模式。建议在调整显式令牌预算之前将其作为起点。

response = client.chat.completions.create(
    model=MODEL,
    messages=[{"role": "user", "content": "What is the capital of Japan?"}],
    max_tokens=16000,
    temperature=1.0,
    top_p=0.95,
    extra_body={"chat_template_kwargs": {"enable_thinking": True, "low_effort": True}}
)
print(response.choices[0].message.content)

OpenCode

OpenCode 是一款可在终端运行的 AI 编码代理。它能连接至任何与 OpenAI 兼容的端点,因此可与上述所有三种服务后端(vLLM、SGLang 和 TRT-LLM)兼容。

创建或更新您的 ~/.config/opencode/opencode.json:

{
    "$schema": "https://opencode.ai/config.json",
    "model": "local/nvidia-nemotron-3-super",
    "provider": {
        "local": {
            "npm": "@ai-sdk/openai-compatible",
            "name": "local_backend",
            "options": {
                "baseURL": "http://localhost:8000/v1",
                "apiKey": "EMPTY"
            },
            "models": {
                "nvidia-nemotron-3-super": {
                    "name": "nvidia/nemotron-3-super",
                    "limit": {
                        "context": 1000000,
                        "output": 32768
                    }
                }
            }
        }
    },
    "agent": {
        "build": {
            "temperature": 1.0,
            "top_p": 0.95,
            "max_tokens": 32000
        },
        "plan": {
            "temperature": 1.0,
            "top_p": 0.95,
            "max_tokens": 32000
        }
    }
}

将 baseURL 更新为与你正在运行的后端相匹配。上面的默认端口(8000)与 vLLM 示例匹配;SGLang 和 TRT-LLM 分别使用 30000 和 8123。

要了解更多关于其他受支持的智能体框架,请查看 此资源

高级:预算控制推理

使用 reasoning_budget 为推理轨迹设置硬性令牌上限。模型将尝试在预算达到前的下一个换行处结束轨迹;如果在 500 个令牌内未找到换行,则会在 reasoning_budget + 500 处突然结束。

from typing import Any, Dict, List
import openai
from transformers import AutoTokenizer


class ThinkingBudgetClient:
    def __init__(self, base_url: str, api_key: str, tokenizer_name_or_path: str):
        self.tokenizer = AutoTokenizer.from_pretrained(tokenizer_name_or_path)
        self.client = openai.OpenAI(base_url=base_url, api_key=api_key)

    def chat_completion(
        self,
        model: str,
        messages: List[Dict[str, Any]],
        reasoning_budget: int = 512,
        max_tokens: int = 1024,
        **kwargs,
    ) -> Dict[str, Any]:
        assert max_tokens > reasoning_budget, (
            f"reasoning_budget must be less than max_tokens. "
            f"Got {max_tokens=} and {reasoning_budget=}"
        )

        # Step 1: generate the reasoning trace up to the budget
        response = self.client.chat.completions.create(
            model=model, messages=messages, max_tokens=reasoning_budget, **kwargs
        )
        reasoning_content = response.choices[0].message.content
        if "" not in reasoning_content:
            reasoning_content = f"{reasoning_content}.\n\n\n"

        reasoning_tokens_len = len(
            self.tokenizer.encode(reasoning_content, add_special_tokens=False)
        )
        remaining_tokens = max_tokens - reasoning_tokens_len
        assert remaining_tokens > 0, (
            f"No tokens remaining for response ({remaining_tokens=}). "
            "Increase max_tokens or lower reasoning_budget."
        )

        # Step 2: continue from the closed reasoning trace
        messages.append({"role": "assistant", "content": reasoning_content})
        prompt = self.tokenizer.apply_chat_template(
            messages, tokenize=False, continue_final_message=True
        )
        response = self.client.completions.create(
            model=model, prompt=prompt, max_tokens=remaining_tokens, **kwargs
        )

        return {
            "reasoning_content": reasoning_content.strip().strip("").strip(),
            "content": response.choices[0].text,
            "finish_reason": response.choices[0].finish_reason,
        }

示例用法(32-token 推理预算):

client = ThinkingBudgetClient(
    base_url="http://localhost:8000/v1",
    api_key="EMPTY",
    tokenizer_name_or_path="nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4",
)

result = client.chat_completion(
    model="nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4",
    messages=[
        {"role": "system", "content": "You are a helpful assistant. /think"},
        {"role": "user", "content": "What is 2+2?"},
    ],
    reasoning_budget=32,
    max_tokens=512,
    temperature=1.0,
    top_p=0.95,
)
print(result)

训练与评估数据集

训练

数据模态: 文本 总规模: 15,573,172,908,990 个 tokens 数据集总数: 153 个 数据集划分: 训练集 [100%]、测试集 [0%]、验证集 [0%] 训练数据收集时间段: 2013 年至 2026 年 2 月 24 日 测试数据收集时间段: 2013 年至 2026 年 2 月 24 日 验证数据收集时间段: 2013 年至 2026 年 2 月 24 日 按数据集划分的数据收集方法: 混合:自动化、人工、合成 按数据集划分的标注方法: 混合:自动化、人工、合成

NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 在大规模高质量精选和合成生成数据集上进行预训练。其训练语言包括英语、19 种其他语言以及 43 种编程语言。我们的数据源涵盖多种文档类型,如网页、对话、文章及其他书面材料。语料库涉及法律、数学、科学、金融等多个领域。我们还纳入了小部分问答和对齐风格的数据,以提升模型准确性。该模型的训练量约为 25 万亿 tokens。

NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 的后训练语料库同样由高质量精选和合成生成数据构成。后训练使用的主要语言包括英语、法语、德语、意大利语、日语、西班牙语和中文。

FinePDFs、EssentialWeb、HotpotQA、SQuAD 和 HelpSteer3 等这些数据集,无论从整体还是单个来看,都未能全面(且成比例地)代表所有人口统计群体。例如,这些数据集在 64%-99% 的样本中未明确提及年龄、性别或种族等人口统计类别,具体比例因来源而异。在确实包含此类术语的子集中,基于文档的数据集(FinePDFs 和 EssentialWeb)存在代表性偏差,例如“男性”的提及次数多于“女性”,“白人”是种族标识符中出现频率最高的(占种族提及次数的 43%-44%)。为减轻这些不平衡,我们建议考虑采用偏差审计、使用人口统计平衡的数据集进行微调,以及反事实数据增强等缓解策略,以与期望的模型行为保持一致。本评估在每个数据集上使用了 3,000 样本的子集,这被确定为最大化嵌入器准确性的最佳阈值。

在后训练期间,我们通过从强大的教师模型和智能体系统中提取轨迹、解决方案和翻译来生成合成数据,这些数据通常基于真实任务或文档,并经过严格的质量筛选。对于数学、代码和科学领域,我们从精选的问题集入手,使用 GPT-OSS-120B 等开源许可模型生成逐步推理轨迹、候选解决方案、最佳 n 选择轨迹以及经过验证的 CUDA 内核。对于长文本和科学领域,我们通过从长文档中检索段落、生成多选题/开放式问题与答案,并将其改写成多种提示/响应格式以确保多样性,从而构建合成问答和推理数据。在所有流程中,我们都叠加了自动化验证(编译器、数值检查、语言识别),以确保数据质量。

对于所有领域,我们应用统一的数据过滤流程,确保只有高质量、符合许可要求且可验证的样本用于后训练。首先,我们使用结构检查丢弃格式错误的示例(例如,当存在工具调用时缺少工具定义)。然后,我们严格过滤表现出病态重复的推理轨迹,例如在滑动窗口内或整个轨迹中重复出现 n 元语法,我们发现这是推理格式错误或质量低下的强烈指标。最后,基于对合成生成数据集的内部审计,我们观察到一些教师模型偶尔会生成隐含特定政治实体倾向或宣扬民族主义叙事的推理轨迹和最终响应。为缓解此问题,我们应用基于关键词和正则表达式的定向过滤器,并移除所有匹配此类行为的轨迹。

除模型外,我们还发布了本节所述的最终预训练和后训练数据。为便于分析,提供了一个无需权限访问的样本集。对于所有其余的代码、数学和多语言数据,需要权限访问和审批,且该数据集在模型训练用途方面采用许可授权。

有关数据集和合成数据生成方法的更多详情,请参见技术报告 NVIDIA Nemotron 3 Super。

点击查看用于训练的完整数据集目录

基础预训练语料库(Nemotron 3 基础版)

该模型的基础部分在 Nemotron-3-Nano 语料库上训练,该语料库包含以下集合:

数据集集合Token 数量描述
Nemotron-CC-v2 和 v2.19.13T从 Common Crawl 中过滤出的海量英语网络数据集合,包括 2.5T+ tokens 的新原生、翻译及合成改写内容。
Nemotron-CC-Code-v1427.9B使用 Lynx + LLM 流水线从 Common Crawl 中提取的高质量代码 tokens,以保留结构和方程式。
Nemotron-Pretraining-Code-v1 和 v21.09T经过多阶段过滤、去重的精选 GitHub 代码参考,以及大规模合成代码数据。
Nemotron-CC-Math-v1133.3B保留 LaTeX 格式和数学结构的高质量数学预训练数据集。
Nemotron-Pretraining-Specialized-v1336.4B针对 STEM 推理和科学编码等专业领域的合成数据集。

公开数据集

数据集收集周期
GSM8K2025年4月23日
CC-NEWS2025年4月23日
Common Crawl2025年4月23日
Wikimedia2025年4月23日
Bespoke-Stratos-17k2025年4月23日
tigerbot-kaggle-leetcodesolutions-en-2k2025年4月23日
glaive-function-calling-v22025年4月23日
APIGen Function-Calling2025年4月23日
LMSYS-Chat-1M2025年4月23日
Open Textbook Library - CC BY-SA & GNU subset 和 OpenStax - CC BY-SA subset2025年4月23日
Advanced Reasoning Benchmark、tigerbot-kaggle-leetcodesolutions-en-2k、PRM800K 以及 SciBench2025年4月23日
FineWeb-22025年4月23日
Court Listener历史下载
peS2o历史下载
OpenWebMath历史下载
BioRxiv历史下载
PMC Open Access Subset历史下载
OpenWebText2历史下载
Stack Exchange Data Dump历史下载
PubMed Abstracts历史下载
NIH ExPorter历史下载
arXiv历史下载
BigScience Workshop Datasets历史下载
Reddit Dataset历史下载
SEC's Electronic Data Gathering, Analysis, and Retrieval (EDGAR)历史下载
Advanced Mathematical Problem Solving历史下载
MathPile历史下载
NuminaMath CoT历史下载
PMC Article历史下载
FLAN历史下载
Advanced Reasoning Benchmark历史下载
SciBench历史下载
WikiTableQuestions历史下载
FinQA历史下载
Riddles历史下载
Problems in Elementary Mathematics for Home Study历史下载
MedMCQA历史下载
Cosmos QA历史下载
MCTest历史下载
AI2's Reasoning Challenge历史下载
OpenBookQA历史下载
MMLU Auxiliary Train历史下载
social-chemestry-101历史下载
Moral Stories历史下载
The Common Pile v0.1历史下载
FineMath历史下载
MegaMath历史下载
MultiverseMathHard2025年10月2日
News Commentary2025年10月2日
Essential-Web2025年10月2日
finepdfs2025年10月2日
HotpotQA2025年10月2日
SQuAD2.02025年10月2日
NLTK Words Lists2025年10月2日
来自 Nemotron-Cascade-RL-SWE 的竞争性编码强化学习数据2026年1月10日
NL2Bash2026年1月10日
SWE-Gym2026年1月10日
R2E-Gym-Subset2026年1月10日
SWE-bench_Verified2026年1月10日

由 NVIDIA 从在线来源抓取和搜集

英文 Common Crawl 数据从 Common Crawl 基金会下载(其抓取详情参见该基金会常见问题解答),包含 CC-MAIN-2013-20 至 CC-MAIN-2025-13 的快照。随后,按照《Nemotron-CC 论文》中描述的多种方式对数据进行去重和过滤。此外,我们还从以下三个 Common Crawl 快照中提取了十五种语言的数据:CC-MAIN-2024-51、CC-MAIN-2025-08、CC-MAIN-2025-18。这十五种语言包括阿拉伯语、中文、丹麦语、荷兰语、法语、德语、意大利语、日语、韩语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语和泰语。由于缺乏可靠的基于多语言模型的质量分类器,我们仅采用启发式过滤——与在 Nemotron-CC 流程中对低质量英文数据所做的处理类似,但针对部分效果不佳的语言选择性地移除了部分过滤条件。去重操作与 Nemotron-CC 的处理方式一致。

GitHub 抓取通过 GitHub REST API 和 Amazon S3 API 进行收集。每次抓取均按照各自来源(GitHub 或 S3)设定的速率限制执行。我们收集原始源代码,随后移除所有未包含在我们的宽松许可证集合中的许可证(更多详情请参见技术报告)。

数据集模态数据集大小收集时间收集机构
English Common Crawl文本3.36T2025年4月8日NVIDIA Advanced Deep Learning Research
English Common Crawl 1.1文本未披露2025年10月2日NVIDIA Advanced Deep Learning Research
Multilingual Common Crawl文本812.7B2025年5月1日NVIDIA Advanced Deep Learning Research
GitHub Crawl文本747.4B2025年4月29日NVIDIA Advanced Deep Learning Research

第三方私有非公开访问数据集

数据集使用的模型
全球法规(Global Regulation)未知
TAUS 翻译记忆库(TAUS Translation Memory)未知
Scale HLE未知
HackerRank 编程(HackerRank Coding)未知
搜索用强化学习数据(RL data for Search)Gemini 3;GPT-5 *
  • 仅用于提示生成的模型

NVIDIA 的私有非公开访问数据集

数据集使用的模型
简易扫雷(Simple Minesweeper)-
简易数独(Simple Sudoku)-
多工具打字机难题(Multitool Typewriter Hard)-
新闻评论与 TAUS 翻译记忆库机器翻译(Machine Translation of News Commentary and TAUS Translation Memory)-
STEM 机器翻译(Machine Translation of STEM)Qwen2.5-14B-Instruct
来自 Nemotron Cascade 的竞技编程强化学习数据(Competitive Coding RL data from Nemotron Cascade)-
长上下文强化学习(Long context RL)-
用于补丁生成的单步软件工程强化学习(Single-step SWE RL for patch generation)-
OpenHands 软件工程(OpenHands SWE)-

NVIDIA 来源的合成数据集

数据集模态数据集大小种子数据集用于生成的模型
Nemotron-Pretraining-Formal-Logic文本128,022,285Nemotron PersonasQwen3-235B-A22B-Thinking-2507
Nemotron-Pretraining-Economics文本73,374,154-Qwen3-235B-A22B-Thinking-2507
Nemotron-Pretraining-Multiple-Choice文本1,609,214,470MMLU Auxiliary TrainDeepSeek-V3; Qwen3-235B-A22B
Nemotron-Pretraining-Code-Concepts文本7,294,510,156-gpt-oss-20b; gpt-oss-120b
Nemotron-Pretraining-Unconditional-Algorithmic文本196,492,899-gpt-oss-120b; Qwen3-235B-A22B
来自 DeepSeek-V3 和 Qwen3-235B-A22B 的合成任务(Synthetic Tasks from DeepSeek-V3 and Qwen3-235B-A22B)文本6.7BInto the Unknown 的训练分割;AI2 ARC(AI2 推理挑战);BLiMP(语言最小对基准);CommonSenseQA;GLUE;HeadQA;Hendrycks Ethics;Memo Trap;modus-tollens;NeQA;pattern-matching-suppression;mastermind_24_mcq_random;mastermind_24_mcq_close;quote-repetition;redefine-math;Repetitive Algebra;sig-figs;MMLU-Pro;MC-TACO;MedConceptsQA;MMLU_dataset;OpenbooksQA;PIQA(物理交互问答);SocialIQA;SuperGLUE;tinyAI2_arc;tinyMMLU;tinyWinogrande;TruthfulQA;WebQuestions;Winogrande;GPQA;MBPPDeepSeek v3; Qwen3-235B-A22B
来自 DeepSeek-R1 的合成解题技巧(Synthetic Art of Problem Solving from DeepSeek-R1)文本40B解题技巧(Art of Problem Solving); 美国数学竞赛 8(American Mathematics Competitions 8); 美国数学竞赛 10(American Mathematics Competitions 10);DeepSeek-R1
来自 Mixtral-8x22B-v0.1 的合成道德故事与社会化学(Synthetic Moral Stories and Social Chemistry from Mixtral-8x22B-v0.1)文本327Msocial-chemestry-101; 道德故事(Moral Stories)Mixtral-8x22B-v0.1
以 OpenStax 为种子,来自 DeepSeek-V3、Mixtral-8x22B-v0.1 和 Qwen2.5-72B 的合成社会科学(Synthetic Social Sciences seeded with OpenStax from DeepSeek-V3, Mixtral-8x22B-v0.1, and Qwen2.5-72B)文本83.6MOpenStax - CC BY-SA 子集DeepSeek-V3; Mixtral-8x22B-v0.1; Qwen2.5-72B
以 OpenStax 为种子,来自 DeepSeek-V3、Mixtral-8x22B-v0.1 和 Qwen2.5-72B 的合成健康科学(Synthetic Health Sciences seeded with OpenStax from DeepSeek-V3, Mixtral-8x22B-v0.1, and Qwen2.5-72B)文本9.7MOpenStax - CC BY-SA 子集DeepSeek-V3; Mixtral-8x22B-v0.1; Qwen2.5-72B
以 OpenStax、开放教科书图书馆和 GSM8K 为种子,来自 DeepSeek-R1、DeepSeek-V3、DeepSeek-V3-0324 和 Qwen2.5-72B 的合成 STEM(Synthetic STEM seeded with OpenStax, Open Textbook Library, and GSM8K from DeepSeek-R1, DeepSeek-V3, DeepSeek-V3-0324, and Qwen2.5-72B)文本175MOpenStax - CC BY-SA 子集; GSM8K; 开放教科书图书馆 - CC BY-SA 与 GNU 子集(Open Textbook Library - CC BY-SA & GNU subset)DeepSeek-R1, DeepSeek-V3; DeepSeek-V3-0324; Qwen2.5-72B
Nemotron-PrismMath文本4.6BBig-Math-RL-Verified; OpenR1-Math-220kQwen2.5-0.5B-instruct, Qwen2.5-72B-Instruct; DeepSeek-R1-Distill-Qwen-32B
来自 Qwen2.5-72B-Instruct 的论文和许可书籍合成问答数据(Synthetic Question Answering Data from Papers and Permissible Books from Qwen2.5-72B-Instruct)文本350MarXiv; 美国国立卫生研究院 ExPorter(National Institutes of Health ExPorter); BioRxiv; PMC 文章(PMC Article); USPTO 背景(USPTO Backgrounds); peS2o; 全球法规(Global Regulation); CORE; PG-19; DOAB CC BY & CC BY-SA 子集; NDLTDQwen2.5-72B-Instruct
来自 phi-4 的更新版 Nemotron-MIND(Refreshed [Nemotron-MIND] from phi-4)文本73BCommon Crawlphi-4
Nemotron-CC-Math-4plus文本52.3BCommon Crawlphi-4
Nemotron-CC-Math-3文本80.9BCommon Crawlphi-4
以 AQUA-RAT、LogiQA 和 AR-LSAT 为种子,来自 DeepSeek-V3 和 DeepSeek-V3-0324 的合成 AGIEval(Synthetic AGIEval seeded with AQUA-RAT, LogiQA, and AR-LSAT from DeepSeek-V3 and DeepSeek-V3-0324)文本4.0BAQUA-RAT; LogiQA; AR-LSATDeepSeek-V3; DeepSeek-V3-0324
以 AQUA-RAT、LogiQA 和 AR-LSAT 为种子,来自 Qwen3-30B-A3B 的合成 AGIEval(Synthetic AGIEval seeded with AQUA-RAT, LogiQA, and AR-LSAT from Qwen3-30B-A3B)文本4.2BAQUA-RAT; LogiQA; AR-LSATQwen3-30B-A3B
来自 Qwen2.5-32B-Instruct、Qwen2.5-Math-72B、Qwen2.5-Math-7B 和 Qwen2.5-72B-Instruct 的合成解题技巧(Synthetic Art of Problem Solving from Qwen2.5-32B-Instruct, Qwen2.5-Math-72B, Qwen2.5-Math-7B, and Qwen2.5-72B-Instruct)文本解题技巧(Art of Problem Solving); 美国数学竞赛 8(American Mathematics Competitions 8); 美国数学竞赛 10(American Mathematics Competitions 10); GSM8K; PRM800KQwen2.5-32B-Instruct; Qwen2.5-Math-72B; Qwen2.5-Math-7B; Qwen2.5-72B-Instruct
来自 DeepSeek-R1 的合成 MMLU 辅助训练(Synthetic MMLU Auxiliary Train from DeepSeek-R1)文本0.5BMMLU Auxiliary TrainDeepSeek-R1
来自 Qwen2.5-72B-Instruct 的论文和许可书籍合成长上下文持续训练后数据(Synthetic Long Context Continued Post-Training Data from Papers and Permissible Books from Qwen2.5-72B-Instruct)文本arXiv; 美国国立卫生研究院 ExPorter(National Institutes of Health ExPorter); BioRxiv; PMC 文章(PMC Article); USPTO 背景(USPTO Backgrounds); peS2o; 全球法规(Global Regulation); CORE; PG-19; DOAB CC BY & CC BY-SA 子集; NDLTDQwen2.5-72B-Instruct
来自 Qwen3-30B-A3B 和 Mistral-Nemo-12B-Instruct 的合成 Common Crawl(Synthetic Common Crawl from Qwen3-30B-A3B and Mistral-Nemo-12B-Instruct)文本415.8BCommon CrawlQwen3-30B-A3B; Mistral-NeMo-12B-Instruct
来自 Qwen3-30B-A3B 的 Common Crawl 合成多语言数据(Synthetic Multilingual Data from Common Crawl from Qwen3-30B-A3B)文本Common CrawlQwen3-30B-A3B
来自 Qwen3-30B-A3B 的 Wikimedia 合成多语言数据(Synthetic Multilingual Data from Wikimedia from Qwen3-30B-A3B)文本WikimediaQwen3-30B-A3B
来自 Nemotron-4-340B-Instruct 的 Wikimedia 合成数学数据(Synthetic Math Data from Wikimedia from Nemotron-4-340B-Instruct)文本-Nemotron-4-340B-Instruct
来自 phi-4 的合成 Common Crawl 代码(Synthetic Common Crawl Code from phi-4)文本427.9BCommon Crawlphi-4
来自 Qwen3-235B-A22B 的合成科学编码(Synthetic Scientific Coding from Qwen3-235B-A22B)文本1.2BWikimediaQwen3-235B-A22B
工具调用数据(Tool Calling Data)文本26.2BQwen3-235B-A22B-2507; gpt-oss-120b
来自 QwQ-32B 的合成 Essential-Web(Synthetic Essential-Web from QwQ-32B)文本28.1BEssential-WebQwQ-32B
翻译合成抓取(Translated Synthetic Crawl)文本389.9BCommon CrawlQwen3-30B-A3B
翻译合成维基百科(Translated Synthetic Wikipedia)文本7.9BWikimediaQwen3-30B-A3B
来自 gpt-oss-120b 和 Qwen2.5-32B-Instruct 的合成解题技巧(Synthetic Art of Problem Solving from gpt-oss-120b and Qwen2.5-32B-Instruct)文本未公开(Undisclosed)解题技巧(Art of Problem Solving); 美国数学竞赛 8(American Mathematics Competitions 8); 美国数学竞赛 10(American Mathematics Competitions 10)gpt-oss-120b; Qwen2.5-32B-Instruct
来自 gpt-oss-120b 和 Qwen2.5-32B-Instruct 的合成 Stack Exchange(Synthetic Stack Exchange from gpt-oss-120b and Qwen2.5-32B-Instruct)文本未公开(Undisclosed)Stack Exchangegpt-oss-120b; Qwen2.5-32B-Instruct
来自 DeepSeek-R1-0528 的合成 OpenCodeReasoning(Synthetic OpenCodeReasoning from DeepSeek-R1-0528)文本未公开(Undisclosed)OpenCodeReasoningDeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成 HackerRank 编程(Synthetic HackerRank Coding from DeepSeek-R1-0528)文本未公开(Undisclosed)HackerRank 编程数据集(HackerRank Coding Dataset)DeepSeek-R1-0528
来自 Qwen3-Coder-480B-A35B-Instruct 的合成 SWE-Gym(Synthetic SWE-Gym from Qwen3-Coder-480B-A35B-Instruct)文本未公开(Undisclosed)SWE-GymQwen3-Coder-480B-A35B-Instruct
来自 gpt-oss-120b、Qwen2.5-32B-Instruct 和 Goedel-Prover-V2-32B 的合成解题技巧与 Stack Exchange(Synthetic Art of Problem Solving and Stack Exchange from gpt-oss-120b, Qwen2.5-32B-Instruct, and Goedel-Prover-V2-32B)文本未公开(Undisclosed)解题技巧(Art of Problem Solving); 美国数学竞赛 8(American Mathematics Competitions 8); 美国数学竞赛 10(American Mathematics Competitions 10); Stack Exchangegpt-oss-120b; Qwen2.5-32B-Instruct; Goedel-Prover-V2-32B
来自 DeepSeek-R1、DeepSeek-R1-0528、Qwen2.5-32B-Instruct 和 Qwen3-235B-A22B 的合成多语言科学与代码数据,经 Qwen2.5-32B-Instruct 和 Qwen2.5-14B-Instruct 翻译(Synthetic Multilingual Science and Code data from DeepSeek-R1, DeepSeek-R1-0528, Qwen2.5-32B-Instruct, and Qwen3-235B-A22B, translated with Qwen2.5-32B-Instruct and Qwen2.5-14B-Instruct)文本未公开(Undisclosed)Stack Exchange; SCP-116K; LIMO; TACO; 代码竞赛(Code Contest); CodeforcesDeepSeek-R1; DeepSeek-R1-0528; Qwen2.5-32B-Instruct; Qwen3-235B-A22B;
来自 DeepSeek-R1-0528、gpt-oss-120b 和 Mixtral-8x7B-v0.1 的合成安全性(Synthetic Safety from DeepSeek-R1-0528, gpt-oss-120b and Mixtral-8x7B-v0.1)文本未公开(Undisclosed)Nemotron 内容安全数据集 V2(Nemotron Content Safety Dataset V2); Gretel 合成安全对齐数据集(Gretel Synthetic Safety Alignment Dataset); RedTeam-2K; 恶意任务(Malicious Tasks); Nemotron-Personas-USADeepSeek-R1-0528; gpt-oss-120b; Mixtral-8x7B-v0.1
来自 Qwen3-235B-A22B-Instruct-2507 和 gpt-oss-120b 的合成 STEM(Synthetic STEM from Qwen3-235B-A22B-Instruct-2507 and gpt-oss-120b)文本未公开(Undisclosed)arXiv; 美国国立卫生研究院 ExPorter(National Institutes of Health ExPorter); BioRxiv; PMC 文章(PMC Article); USPTO 背景(USPTO Backgrounds); peS2o; 全球法规(Global Regulation); CORE; PG-19; DOAB CC BY & CC BY-SA 子集; NDLTDQwen3-235B-A22B-Instruct-2507; gpt-oss-120b
来自 DeepSeek-R1-0528 的合成 KernelBook(Synthetic KernelBook from DeepSeek-R1-0528)文本未公开(Undisclosed)KernelBookDeepSeek-R1-0528
来自 Qwen3-235B-A22B-Thinking-2507 和 Qwen3-Next-80B-A3B-Thinking 的合成工具调用(Synthetic Tool Calling from Qwen3-235B-A22B-Thinking-2507 and Qwen3-Next-80B-A3B-Thinking)文本未公开(Undisclosed)ToolBench; glaive-function-calling-v2; APIGen Function-Calling; Nemotron-Personas-USAQwen3-235B-A22B-Thinking-2507; Qwen3-Next-80B-A3B-Thinking
来自 gpt-oss-120b、Mixtral-8x22B-Instruct-v0.1、Qwen3-235B-A22B-Instruct-2507 和 Qwen3-235B-A22B-Thinking-2507 的合成聊天(Synthetic Chat from gpt-oss-120b, Mixtral-8x22B-Instruct-v0.1, Qwen3-235B-A22B-Instruct-2507 , and Qwen3-235B-A22B-Thinking-2507)文本未公开(Undisclosed)C4; LMSYS-Chat-1M; ShareGPT; GSM8K; PRM800K; FinQA; WikiTableQuestions; 谜语(Riddles); glaive-function-calling-v2; SciBench; tigerbot-kaggle-leetcodesolutions-en-2k; OpenBookQA; 高级推理基准(Advanced Reasoning Benchmark); 软件遗产(Software Heritage); 可汗学院数学关键词(Khan Academy Math Keywords); WildChat-1M; Nemotron-Personas-USAgpt-oss-120b; Mixtral-8x22B-Instruct-v0.1; Qwen3-235B-A22B-Instruct-2507; Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-235B-A22B-Instruct-2507 的合成长上下文(Synthetic Long Context from Qwen3-235B-A22B-Instruct-2507)文本未公开(Undisclosed)CORE; PG-19; DOAB CC BY & CC BY-SA 子集; NDLTDQwen3-235B-A22B-Instruct-2507
来自 gpt-oss-120b、DeepSeek-R1-0528、Qwen3-32B 和 Qwen3-235B-A22B-Thinking-2507 的合成工具使用交互式智能体(Synthetic Tool Use Interactive Agent from gpt-oss-120b, DeepSeek-R1-0528, Qwen3-32B, and Qwen3-235B-A22B-Thinking-2507)文本未公开(Undisclosed)NVIDIA 内部(NVIDIA Internal)gpt-oss-120b; DeepSeek-R1-0528; Qwen3-32B; 和 Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-235B-A22B-Thinking-2507 的合成 STEM(Synthetic STEM from Qwen3-235B-A22B-Thinking-2507)文本未公开(Undisclosed)ICHO-IPH0; Physics Big; Scale HLE; OpenMathReasoning; OpenCodeReasoningQwen3-235B-A22B-Thinking-2507
来自 Qwen3-Coder-480B-A35B-Instruct 和 Kimi-K2-Thinking 的合成 DocFinQA 和 SWE-smith(Synthetic DocFinQA and SWE-smith from Qwen3-Coder-480B-A35B-Instruct and Kimi-K2-Thinking)文本未公开(Undisclosed)DocFinQA; SWE-smithQwen3-Coder-480B-A35B-Instruct; Kimi-K2-Thinking
来自 gpt-oss-120b 和 Qwen2.5-32B-Instruct 的合成数学数据文本未公开-gpt-oss-120b; Qwen2.5-32B-Instruct
来自 gpt-oss-120b 的合成 Essential-Web 数据文本未公开Essential-Webgpt-oss-120b
来自 gpt-oss-120b 的合成 Scale HLE 数据文本未公开Scale HLEgpt-oss-120b
来自 gpt-oss-120b 的合成 CDQuestions 数据文本未公开CDQuestionsgpt-oss-120b
来自 gpt-oss-120b 的合成 Stack Exchange 数据文本未公开Stack Exchangegpt-oss-120b
来自 gpt-oss-120b 和 Qwen2.5-32B-Instruct 的合成 GPQA 数据文本未公开Stack Exchangegpt-oss-120b; Qwen2.5-32B-Instruct
来自 gpt-oss-120b 的合成 Vedantu 数据文本未公开Vedantugpt-oss-120b
来自 Qwen3-Coder-480B-A35B-Instruct 的合成 SWE-Gym 和 R2E-Gym-Subset 数据文本未公开SWE-Gym; R2E-Gym-SubsetQwen3-Coder-480B-A35B-Instruct
来自 Qwen3-Coder-480B-A35B-Instruct 的合成 SWE-Gym 数据文本未公开SWE-GymQwen3-Coder-480B-A35B-Instruct
来自 DeepSeek-R1-0528 的合成 SWE-Gym 和 R2E-Gym-Subset 数据文本未公开SWE-Gym; R2E-Gym-SubsetDeepSeek-R1-0528
来自 gpt-oss-120b、Qwen3-235B-A22B-Instruct-2507 和 Qwen3-235B-A22B-Thinking-2507 的合成 HelpSteer、LMSYS-Chat-1M 和 Nemotron-Personas-USA 数据文本未公开HelpSteer2; HelpSteer3; LMSYS-Chat-1M; Nemotron-Personas-USAgpt-oss-120b; Qwen3-235B-A22B-Instruct-2507; Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-30B-A3B-Instruct-2507、Qwen3-30B-A3B-Thinking-2507、Qwen3-235B-A22B-Instruct-2507 和 Qwen3-235B-A22B-Thinking-2507 的合成结构化输出数据文本未公开-Qwen3-30B-A3B-Instruct-2507; Qwen3-30B-A3B-Thinking-2507; Qwen3-235B-A22B-Instruct-2507; Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-235B-A22B 和 DeepSeek-R1-0528 的合成搜索 STEM 多项选择题数据文本未公开-Qwen3-235B-A22B; DeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成搜索 STEM 开放式问题数据文本未公开-DeepSeek-R1-0528
来自 Qwen2.5-32B-Instruct 和 DeepSeek-R1-0528 的合成 OpenSTEM 数据文本未公开-Qwen2.5-32B-Instruct; DeepSeek-R1-0528
来自 Qwen2.5-32B-Instruct 和 DeepSeek-R1-0528 的合成多项选择题数据文本未公开-Qwen2.5-32B-Instruct; DeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成 MCQ10 数据文本未公开-DeepSeek-R1-0528
来自 Qwen3-235B-A22B、DeepSeek-R1-0528 和 Qwen3-235B-A22B-Instruct-2507 的合成 MCQ4 数据文本未公开-Qwen3-235B-A22B; DeepSeek-R1-0528; Qwen3-235B-A22B-Instruct-2507
来自 gpt-oss-120b 和 Qwen2.5-32B-Instruct 的合成 OpenMathReasoning 数据文本未公开OpenMathReasoninggpt-oss-120b; Qwen2.5-32B-Instruct
来自 DeepSeek-R1-0528 的合成离线搜索 MCQA HLE 数据文本未公开-DeepSeek-R1-0528
来自 Qwen3-235B-A22B 和 DeepSeek-R1-0528 的合成离线搜索 MCQA GPQA 数据文本未公开-Qwen3-235B-A22B; DeepSeek-R1-0528
来自 QwQ-32B、Qwen3-30B-A3B、Qwen3-235B-A22B、Qwen3-235B-A22B-Instruct-2507、Mistral-Small-3.1-24B-Instruct-2503、Mistral-Small-3.2-24B-Instruct-2506、MiniMax-M1-80k、MiniMax-M1-40k、Kimi-K2-Instruct、DeepSeek-V3-0324、DeepSeek-R1-0528 的合成人类偏好数据文本未公开-QwQ-32B; Qwen3-30B-A3B; Qwen3-235B-A22B; Qwen3-235B-A22B-Instruct-2507; Mistral-Small-3.1-24B-Instruct-2503; Mistral-Small-3.2-24B-Instruct-2506; MiniMax-M1-80k; MiniMax-M1-40k; Kimi-K2-Instruct; DeepSeek-V3-0324; DeepSeek-R1-0528
来自 DeepSeek-R1、gemma-2-2b-it、gemma-3-27b-it、gpt-oss-20b、gpt-oss-120b、Mistral-7B-Instruct-v0.3、Mixtral-8x22B-Instruct-v0.1、Nemotron-4-340B-Instruct、NVIDIA-Nemotron-Nano-9B-v2、Phi-4-mini-instruct、Phi-3-small-8k-instruct、Phi-3-medium-4k-instruct、Qwen3-235B-A22B、QwQ-32B 的合成 WildChat-1M 和 arena-human-preference-140k 数据文本未公开WildChat-1M; arena-human-preference-140kDeepSeek-R1; gemma-2-2b-it; gemma-3-27b-it; gpt-oss-20b; gpt-oss-120b; Mistral-7B-Instruct-v0.3; Mixtral-8x22B-Instruct-v0.1; Nemotron-4-340B-Instruct; NVIDIA-Nemotron-Nano-9B-v2; Phi-4-mini-instruct; Phi-3-small-8k-instruct; Phi-3-medium-4k-instruct; Qwen3-235B-A22B; QwQ-32B
来自 DeepSeek-R1-0528、gpt-oss-120b、DeepSeek-R1-Distill-Qwen-7B 和 Mixtral-8x7B-v0.1 的合成安全数据文本未公开Nemotron Content Safety Dataset V2; Gretel Synthetic Safety Alignment Dataset; RedTeam-2K; Malicious Tasks;DeepSeek-R1-0528; gpt-oss-120b; DeepSeek-R1-Distill-Qwen-7B; Qwen3-30B-A3B-Thinking-2507; Qwen3-235B-A22B-Instruct-2507; Mixtral-8x7B-v0.1
来自 Qwen3-32B 的合成代码数据文本未公开English Common Crawl; English Common Crawl 1.1Qwen3-32B
来自 DeepSeek-R1 的合成 OpenCodeReasoning 数据文本未公开OpenCodeReasoningDeepSeek-R1
来自 DeepSeek-R1-0528 的合成 LIMO 数据文本未公开LIMODeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成 SCP 数据文本未公开SCP-116KDeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成 Stack Exchange 数据文本未公开Stack ExchangeDeepSeek-R1-0528
来自 Qwen3-30B-A3B 的合成 Common Crawl 数据文本未公开Common CrawlQwen3-30B-A3B
来自 Qwen3-30B-A3B 的合成 Wikipedia 数据文本未公开WikimediaQwen3-30B-A3B
来自 Qwen3-30B-A3B 和 Qwen3-235B-A22B-Thinking-2507 的合成 Essential-Web 数据文本未公开Essential-WebQwen3-30B-A3B; Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-30B-A3B、Qwen3-235B-A22B、phi-4 的合成教科书数学数据文本未公开Common Crawl; FineMathQwen3-30B-A3B; Qwen3-235B-A22B; phi-4
来自 DeepSeek-R1 和 DeepSeek-R1-0528 的合成数学与代码数据文本未公开Magicoder-Evol-Instruct-110K; opc-sft-stage2; TACO; OpenCodeReasoning; OpenMathReasoning; NuminaMath CoTDeepSeek-R1; DeepSeek-R1-0528
来自 gpt-oss-120b 和 Qwen3-8B 的合成 Nemotron-Personas-USA 数据文本未公开Nemotron-Personas-USAgpt-oss-120b; Qwen3-8B
合成 Text-To-SQL 数据文本未公开-gpt-oss-120b
合成无代理 SWE 数据文本未公开SWE-Bench-Train; SWE-Fixer-Train; SWE-reBench; SWE-smithDeepSeek-R1-0528
合成搜索图游走数据文本未公开-MiniMax-M2
合成 CUDA 100k 数据文本未公开KernelBook; HuggingFace Transformers; FlashInferDeepSeek-R1-0528; gpt-oss-120b
合成安全数据文本未公开Nemotron Content Safety Dataset V2; Gretel Synthetic Safety Alignment Dataset; RedTeam-2K; HarmfulTasksgpt-oss-120b; NVIDIA-Nemotron-Nano-9B-v2; gemma-3-4b-it
合成智能体多样化领域数据文本未公开-DeepSeek-R1-0528; Qwen3-235B-A22B-Thinking-2507; Qwen3-235B-A22B-Instruct-2507; Qwen3-32B; gpt-oss-120b; DeepSeek-V3.2
合成未经验证 SWE 数据文本未公开-gpt-oss-120b; Qwen3-Coder-480B-A35B-Instruct; GLM-4.7-Flash
来自 Deepseek-V3 的合成 Scale HLE 数据文本未公开Scale HLEDeepSeek-V3-0324
来自 Deepseek-V3 的合成 CDQuestions 数据文本未公开CDQuestionsDeepSeek-V3-0324
来自 Deepseek-V3 的合成 Stack Exchange 数据文本未公开Stack ExchangeDeepSeek-V3-0324
来自 Deepseek-V3 的合成 GPQA 数据文本未公开Stack ExchangeDeepSeek-V3-0324
来自 Deepseek-V3 的合成 Vedantu 数据文本未公开VedantuDeepSeek-V3-0324
用于强化学习的合成工具调用模式数据文本未公开ToolBench; glaive-function-calling-v2; APIGen Function-Calling; Nemotron-Personas-USAQwen3-235B-A22B-Thinking-2507; Qwen3-Next-80B-A3B-Thinking
用于搜索的合成数据文本未公开WikimediaMiniMax-M2
用于强化学习的合成指令跟随数据文本未公开-NVIDIA-Nemotron-Nano-9B-v2; Qwen3-235B-A22B-Thinking-2507
合成对话式智能体工具使用强化学习数据文本未公开-DeepSeek-V3.2; DeepSeek-R1-0528; Qwen3-235B-A22B-Thinking-2507; Qwen3-32B; gpt-oss-120b; Qwen3-235B-A22B-Instruct-2507
合成终端枢纽强化学习数据文本未公开SWE-smith; Nemotron-Cascade-RL-SWE; Vendor suppliedDeepSeek-V3.2; Qwen3-Coder-480B-A35B-Instruct; Kimi-K2.5; Qwen3-235B-A22B-Instruct-2507

训练后语言分布

在我们的训练后方案中,除英语外,我们还重点关注了9种主要语言:法语、德语、意大利语、日语、西班牙语和中文。

这些语言以多语言推理和翻译任务的形式呈现。

下表展示了我们针对6种语言和5个翻译语言对的样本分布情况。

语言规模
English13.48M
Italian53k
German53k
Spanish53k
French53k
Japanese53k
Chinese53k
English <-> Italian43.2k
English <-> German43.2k
English <-> Spanish43.2k
English <-> French43.2k
English <-> Japanese43.2k

评估数据集

  • 按数据集的数据收集方法:混合:人工、合成
  • 按数据集的标注方法:混合:自动化、人工、合成

推理

  • 加速引擎:PyTorch
  • 测试硬件:
    • NVIDIA Hopper
      • 1-8x H100
      • 1-8x H200
    • NVIDIA Grace Blackwell
      • GB200

伦理考量

NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持广泛的 AI 应用开发。当按照我们的服务条款下载或使用时,开发人员应与其内部模型团队合作,确保此模型满足相关行业和用例的要求,并应对未预见的产品误用问题。

我们建议不要规避模型中包含的任何安全防护措施,除非为您的特定用例设置了实质上类似的防护措施。有关更多详细信息,请参见:安全 和 可解释性 子卡片。

有关此模型伦理考量的更多详细信息,请参见 Model Card++ 的 偏见 和 隐私 子卡片。

请通过 此处 报告模型质量、风险、安全漏洞或 NVIDIA AI 相关问题。

引用

@misc{nvidia_nemotron_3_2025,
  title  = {NVIDIA Nemotron 3: Efficient and Open Intelligence},
  author = {{NVIDIA}},
  year   = {2025},
  url    = {https://arxiv.org/abs/2512.20856},
  note   = {White Paper}
}