HuggingFace镜像/NVIDIA-Nemotron-3-Super-120B-A12B-BF16
模型介绍文件和版本分析
下载使用量0

NVIDIA-Nemotron-3-Super-120B-A12B-BF16

Chat Paper Pre-Training Datasets Post-Training Datasets
Homepage Discord
License

模型摘要

总参数1200亿(120亿激活参数)
架构LatentMoE - Mamba-2 + MoE + 注意力混合架构,支持多令牌预测(MTP)
上下文长度最长100万令牌
最低GPU要求8× H100-80GB
支持语言英语、法语、德语、意大利语、日语、西班牙语、中文
最适用于智能体工作流、长上下文推理、高容量工作负载(如IT工单自动化)、工具使用、检索增强生成(RAG)
推理模式可通过聊天模板配置启用/禁用(enable_thinking=True/False)
许可证NVIDIA Nemotron Open Model License
发布日期2026年3月11日

快速入门

在所有任务和服务后端(推理、工具调用及通用聊天)中,均使用 temperature=1.0 和 top_p=0.95。

有关模型部署和使用的更多详细信息,请参见下文的快速入门指南!

如需在单B200或DGX Spark上运行Nemotron 3 Super,请参见:NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4

模型概述

模型开发者:NVIDIA Corporation

模型开发时间:2025年12月 - 2026年3月

数据时效性:

  • 训练后数据的截止日期为2026年2月。
  • 预训练数据的截止日期为2025年6月。

什么是Nemotron?

NVIDIA Nemotron™ 是一系列开源模型,提供开放权重、训练数据和训练方案,旨在为构建专业AI智能体提供卓越的效率和准确性。

模型说明

Nemotron-3-Super-120B-A12B-BF16 是由NVIDIA训练的大型语言模型(LLM),旨在提供强大的智能体能力、推理能力和对话能力。它针对协作智能体和高容量工作负载(如IT工单自动化)进行了优化。与该系列的其他模型一样,它通过首先生成推理轨迹,然后得出最终响应来响应用户查询和任务。模型的推理能力可通过聊天模板中的标志进行配置。

该模型采用混合潜在专家混合(LatentMoE) 架构,使用交错的Mamba-2和MoE层,以及精选的注意力层。与Nano模型不同,Super模型集成了多令牌预测(MTP) 层,以实现更快的文本生成和更高的质量,并使用NVFP4量化技术进行训练,以最大限度地提高计算效率。该模型的总参数为1200亿,激活参数为120亿。

支持的语言包括:英语、法语、德语、意大利语、日语、西班牙语和中文

本模型已准备好投入商业使用。

许可协议/使用条款

适用下载条款:本模型的使用受 NVIDIA Nemotron 开放模型许可协议 管辖。

包含 NIM 的适用下载条款:NIM 容器受 NVIDIA 软件许可协议 和 AI 产品特定条款 管辖。本模型的使用受 NVIDIA Nemotron 开放模型许可协议 管辖。

基准测试

基准测试Nemotron 3 SuperQwen3.5-122B-A10BGPT-OSS-120B
通用知识
MMLU-Pro83.7386.7081.00
推理能力
AIME25(无工具)90.2190.3692.50
HMMT Feb25(无工具)93.6791.4090.00
HMMT Feb25(有工具)94.7389.55—
GPQA(无工具)79.2386.6080.10
GPQA(有工具)82.70—80.09
LiveCodeBench(v5 2024-07↔2024-12)81.1978.9388.00
SciCode(子任务)42.0542.0039.00
HLE(无工具)18.2625.3014.90
HLE(有工具)22.82—19.0
智能体能力
Terminal Bench(困难子集)25.7826.8024.00
Terminal Bench Core 2.031.0037.5018.70
SWE-Bench(OpenHands)60.4766.4041.9
SWE-Bench(OpenCode)59.2067.40—
SWE-Bench(Codex)53.7361.20—
SWE-Bench 多语言版(OpenHands)45.78—30.80
TauBench V2
    航空56.2566.049.2
    零售62.8362.667.80
    电信64.3695.0066.00
    平均值61.1574.5361.0
BrowseComp 带搜索31.28—33.89
BIRD Bench41.80—38.25
对话与指令遵循
IFBench(提示词)72.5673.7768.32
Scale AI 多挑战55.2361.5058.29
Arena-Hard-V273.8875.1590.26
长上下文
AA-LCR58.3166.9051.00
RULER @ 256k96.3096.7452.30
RULER @ 512k95.6795.9546.70
RULER @ 1M91.7591.3322.30
多语言能力
MMLU-ProX(语言平均值)79.3685.0676.59
WMT24++(en→xx)86.6787.8488.89

所有评估结果均通过 Nemo Evaluator SDK 收集,大多数基准测试使用了 Nemo Skills Harness。为确保可复现性,有关评估设置的更多详细信息,请参见 Nemo Evaluator SDK 配置文件夹 和 Nemotron 3 Super 复现教程。用于评估的、通过 NVIDIA Nemo Evaluator SDK 打包的 Nemo Skills 开源容器可在 此处 找到。除 Nemo Skills 外,评估还使用了 Tau-2 Bench(默认提示词)、Terminal Bench Hard(48 项任务)、ScaleAI Multi Challenge 多轮指令遵循以及 Ruler 的专用开源打包容器。

以下基准测试尚未集成到我们的开源工具中,对于这些测试,我们要么使用了其官方开源实现,要么使用了我们计划在未来开源的内部框架:SWE Bench Verified(OpenHands)、SWE Bench 多语言版(OpenHands)、BrowseComp 带搜索(使用 Serp API 的内部实现)、Terminal Bench Core 2.0(Harbor)。

部署地区:全球

用例

NVIDIA-Nemotron-3-Super-120B-A12B-BF16 是一款通用推理与对话模型,适用于英语、代码及支持的多语言场景。该模型针对协作智能体和高容量工作负载进行了优化,旨在供开发人员用于设计 AI 智能体系统、聊天机器人、RAG 系统及其他 AI 驱动的应用。此外,该模型也适用于复杂指令遵循任务和长上下文推理。

发布日期

Hugging Face - 2026年3月11日,通过 Hugging Face

参考资料

  • Hugging Face 上的 NVIDIA Nemotron 3 模型系列
  • NVIDIA Nemotron 3 Super 技术报告

模型架构

  • 架构类型:Mamba2-Transformer 混合潜在专家混合模型(LatentMoE),带多令牌预测(MTP)
  • 网络架构:Nemotron 混合 LatentMoE
  • 模型参数数量:总计 1200 亿 / 活跃 120 亿

模型设计

该模型采用 LatentMoE 架构,将令牌投影到更小的潜在维度进行专家路由和计算,以提升每字节的精度。Super 模型采用 NVFP4 量化进行预训练,是 Nemotron 3 系列中首个以此精度训练的模型。大部分线性层的权重、激活和梯度使用 NVFP4,而部分选定层(包括潜在投影层、MTP 层、QKV/注意力投影层和嵌入层)则保持 BF16 或 MXFP8 精度以确保训练稳定性。模型包含采用跨预测头共享权重设计的 多令牌预测(MTP) 层。相比独立训练的偏移头,这一设计提升了训练信号质量,通过原生推测解码实现更快推理,并支持在更长草稿长度下进行更稳定的自回归草稿生成。

训练方法

阶段1:预训练

  • NVIDIA-Nemotron-3-Super-120B-A12B-Base-BF16模型使用爬取的以及合成的代码、数学、科学和通用知识数据进行了超过25万亿tokens的预训练。训练利用NVFP4量化以提高效率。所有数据集均在本文档的训练与评估数据集部分公开。预训练语料库的主要部分已发布在Nemotron-Pre-Training-Datasets集合中。
  • 用于预训练的软件:Megatron-LM

阶段2:有监督微调

  • 模型在合成代码、数学、科学、工具调用、指令遵循、结构化输出和通用知识数据上进行了进一步微调。此阶段整合了旨在支持长程检索和多文档聚合的数据。所有数据集均在本文档的训练与评估数据集部分公开。微调语料库的主要部分已发布在Nemotron-Post-Training-v3集合中。Data Designer是用于准备这些语料库的库之一。

阶段3:强化学习

  • 模型在数学、代码、科学、指令遵循、多步骤工具使用、多轮对话和结构化输出等环境中,使用异步GRPO(Group Relative Policy Optimization,组相对策略优化)进行了多环境强化学习。它采用了异步RL架构,在独立的GPU设备上完全解耦训练与推理,并利用飞行中权重更新和MTP加速rollout生成。通过RLHF(基于人类反馈的强化学习)进一步优化了对话质量。所有数据集均在本文档的“训练与评估数据集”部分公开。RL环境和数据集作为NeMo Gym的一部分发布。
  • 用于强化学习的软件:NeMo RL、NeMo Gym

NVIDIA-Nemotron-3-Super-120B-A12B-BF16模型是上述工作的成果。

端到端训练方案可在NVIDIA Nemotron开发者仓库中获取。评估结果可使用NeMo Evaluator SDK复现。Data Designer是用于准备预训练和训练后数据集的库之一。有关数据集和合成数据生成方法的更多详细信息,请参见技术报告NVIDIA Nemotron 3 Super Technical Report。

输入

  • 输入类型: 文本
  • 输入格式: 字符串
  • 输入参数: 一维(1D):序列
  • 与输入相关的其他属性: 最大上下文长度可达 100 万 tokens。支持的语言包括:英语、法语、德语、意大利语、日语、西班牙语和中文

输出

  • 输出类型: 文本
  • 输出格式: 字符串
  • 输出参数: 一维(1D):序列
  • 与输出相关的其他属性: 最大上下文长度可达 100 万 tokens

我们的 AI 模型经过专门设计和优化,可在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件(例如 GPU 核心)和软件框架(例如 CUDA 库),与仅使用 CPU 的解决方案相比,该模型实现了更快的训练和推理时间。

软件集成

  • 运行时引擎:NeMo 25.11.01
  • 支持的硬件微架构兼容性:NVIDIA Ampere - A100;NVIDIA Blackwell;NVIDIA Hopper - H100-80GB
  • 操作系统:Linux

将基础模型和微调模型集成到 AI 系统中,需要使用特定用例的数据进行额外测试,以确保安全有效的部署。遵循 V 模型方法论,在单元和系统层面进行迭代测试和验证,对于在部署前降低风险、满足技术和功能要求以及确保符合安全和道德标准至关重要。

模型版本

  • v1.0 - GA

快速入门指南

对于每个推理后端,我们将使用自定义的 super_v3 推理解析器,您可以通过以下说明获取该解析器:

wget https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16/raw/main/super_v3_reasoning_parser.py

或

curl -O https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16/raw/main/super_v3_reasoning_parser.py

如需高级部署配置,请访问 此资源

vLLM

有关更多详细信息,请参阅 此使用指南。

pip install -U vllm --extra-index-url https://wheels.vllm.ai/097eb544e9a22810c9b7a59e586b61627b308362

export MODEL_CKPT=PATH/TO/MODEL/CHECKPOINT
vllm serve $MODEL_CKPT \
  --served-model-name nvidia/nemotron-3-super \
  --async-scheduling \
  --dtype auto \
  --kv-cache-dtype fp8 \
  --tensor-parallel-size 4 \
  --pipeline-parallel-size 1 \
  --data-parallel-size 2 \
  --max-model-len 262144 \
  --enable-expert-parallel \
  --attention-backend TRITON_ATTN \
  --swap-space 0 \
  --trust-remote-code \
  --gpu-memory-utilization 0.9 \
  --enable-chunked-prefill \
  --mamba-ssm-cache-dtype float16 \
  --reasoning-parser-plugin super_v3_reasoning_parser.py \
  --reasoning-parser super_v3 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder

上文的上下文长度默认设为 256k。若要使用最高 1M 的长度,请设置 VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 和 --max-model-len 1M

SGLang

容器:

docker pull lmsysorg/sglang:v0.5.9

或者 pip:

pip install 'git+https://github.com/sgl-project/sglang.git#subdirectory=python'

如需了解更详细的信息,请参见本使用指南。

python3 -m sglang.launch_server \
  --model PATH/TO/CHECKPOINT \
  --served-model-name nvidia/nemotron-3-super \
  --trust-remote-code \
  --tp 8 \
  --ep 4 \
  --tool-call-parser qwen3_coder \
  --reasoning-parser nano_v3

上文默认上下文长度为 256k。若要使用最高 1M 的上下文长度,请设置 SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 和 --context-length 1048576

TRT-LLM

容器:

docker pull nvcr.io/nvidia/tensorrt-llm/release:1.3.0rc5

如需了解更多详细信息,请参见此手册。

cat > ./extra-llm-api-config.yml << EOF
kv_cache_config:
  enable_block_reuse: false
  mamba_ssm_cache_dtype: float32
moe_config:
  backend: TRTLLM
cuda_graph_config:
  enable_padding: true
  max_batch_size: 256
enable_attention_dp: true
EOF

trtllm-serve PATH/TO/BF16/CHECKPOINT \
  --host 0.0.0.0 \
  --port 8123 \
  --backend pytorch \
  --max_batch_size 256 \
  --tp_size 8 --ep_size 8 \
  --max_num_tokens 8576 \
  --trust_remote_code \
  --reasoning_parser nano_v3 \
  --tool_parser qwen3_coder \
  --extra_llm_api_options extra-llm-api-config.yml

API 客户端

以下示例使用与 OpenAI 兼容的客户端,可与上述任何服务后端配合使用。

注意:对于编码代理,请在 API 调用中添加以下内容 - extra_body={“chat_template_kwargs”: {“force_nonempty_content”: True}

from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")
MODEL = "nvidia/nemotron-3-super"

推理开启(默认)

response = client.chat.completions.create(
    model=MODEL,
    messages=[{"role": "user", "content": "Write a haiku about GPUs"}],
    max_tokens=16000,
    temperature=1.0,
    top_p=0.95,
    extra_body={"chat_template_kwargs": {"enable_thinking": True}}
)
print(response.choices[0].message.content)

推理关闭

response = client.chat.completions.create(
    model=MODEL,
    messages=[{"role": "user", "content": "What is the capital of Japan?"}],
    max_tokens=16000,
    temperature=1.0,
    top_p=0.95,
    extra_body={"chat_template_kwargs": {"enable_thinking": False}}
)
print(response.choices[0].message.content)

低消耗推理

使用的推理令牌数量明显少于完整思考模式。建议在调整显式令牌预算之前将其作为起点。

response = client.chat.completions.create(
    model=MODEL,
    messages=[{"role": "user", "content": "What is the capital of Japan?"}],
    max_tokens=16000,
    temperature=1.0,
    top_p=0.95,
    extra_body={"chat_template_kwargs": {"enable_thinking": True, "low_effort": True}}
)
print(response.choices[0].message.content)

OpenCode

OpenCode 是一款可在终端运行的 AI 编码代理。它能连接至任何与 OpenAI 兼容的端点,因此可与上述所有三种服务后端(vLLM、SGLang 和 TRT-LLM)兼容。

创建或更新您的 ~/.config/opencode/opencode.json:

{
    "$schema": "https://opencode.ai/config.json",
    "model": "local/nvidia-nemotron-3-super",
    "provider": {
        "local": {
            "npm": "@ai-sdk/openai-compatible",
            "name": "local_backend",
            "options": {
                "baseURL": "http://localhost:8000/v1",
                "apiKey": "EMPTY"
            },
            "models": {
                "nvidia-nemotron-3-super": {
                    "name": "nvidia/nemotron-3-super",
                    "limit": {
                        "context": 1000000,
                        "output": 32768
                    }
                }
            }
        }
    },
    "agent": {
        "build": {
            "temperature": 1.0,
            "top_p": 0.95,
            "max_tokens": 32000
        },
        "plan": {
            "temperature": 1.0,
            "top_p": 0.95,
            "max_tokens": 32000
        }
    }
}

将 baseURL 更新为你正在运行的后端对应的 URL。上面的默认端口(8000)与 vLLM 示例匹配;SGLang 和 TRT-LLM 分别使用 30000 和 8123。

要了解更多受支持的智能体框架,请查看 此资源

高级:预算控制推理

使用 reasoning_budget 为推理轨迹设置硬性令牌上限。模型将尝试在预算耗尽前的下一个换行处结束轨迹;如果在 500 个令牌内未找到换行,则会在 reasoning_budget + 500 处突然结束。

from typing import Any, Dict, List
import openai
from transformers import AutoTokenizer


class ThinkingBudgetClient:
    def __init__(self, base_url: str, api_key: str, tokenizer_name_or_path: str):
        self.tokenizer = AutoTokenizer.from_pretrained(tokenizer_name_or_path)
        self.client = openai.OpenAI(base_url=base_url, api_key=api_key)

    def chat_completion(
        self,
        model: str,
        messages: List[Dict[str, Any]],
        reasoning_budget: int = 512,
        max_tokens: int = 1024,
        **kwargs,
    ) -> Dict[str, Any]:
        assert max_tokens > reasoning_budget, (
            f"reasoning_budget must be less than max_tokens. "
            f"Got {max_tokens=} and {reasoning_budget=}"
        )

        # Step 1: generate the reasoning trace up to the budget
        response = self.client.chat.completions.create(
            model=model, messages=messages, max_tokens=reasoning_budget, **kwargs
        )
        reasoning_content = response.choices[0].message.content
        if "" not in reasoning_content:
            reasoning_content = f"{reasoning_content}.\n\n\n"

        reasoning_tokens_len = len(
            self.tokenizer.encode(reasoning_content, add_special_tokens=False)
        )
        remaining_tokens = max_tokens - reasoning_tokens_len
        assert remaining_tokens > 0, (
            f"No tokens remaining for response ({remaining_tokens=}). "
            "Increase max_tokens or lower reasoning_budget."
        )

        # Step 2: continue from the closed reasoning trace
        messages.append({"role": "assistant", "content": reasoning_content})
        prompt = self.tokenizer.apply_chat_template(
            messages, tokenize=False, continue_final_message=True
        )
        response = self.client.completions.create(
            model=model, prompt=prompt, max_tokens=remaining_tokens, **kwargs
        )

        return {
            "reasoning_content": reasoning_content.strip().strip("").strip(),
            "content": response.choices[0].text,
            "finish_reason": response.choices[0].finish_reason,
        }

示例用法(32-token 推理预算):

client = ThinkingBudgetClient(
    base_url="http://localhost:8000/v1",
    api_key="EMPTY",
    tokenizer_name_or_path="nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16",
)

result = client.chat_completion(
    model="nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16",
    messages=[
        {"role": "system", "content": "You are a helpful assistant. /think"},
        {"role": "user", "content": "What is 2+2?"},
    ],
    reasoning_budget=32,
    max_tokens=512,
    temperature=1.0,
    top_p=0.95,
)
print(result)

Transformers

该模型自 v5.3.0 版本起已集成到 🤗 Transformers 中。我们建议使用 NeMo Framework 提供的 Nemotron 3 Super 容器,以确保所有必要的库均可用。

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16")
model = AutoModelForCausalLM.from_pretrained(
    "nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16",
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

如果您的 Transformers 版本低于 v5.3.0,请在加载模型时添加 trust_remote_code=True:

model = AutoModelForCausalLM.from_pretrained(
    "nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16",
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True
)

请注意,该模型支持高达1M的上下文长度,但由于对显存要求较高,Hugging Face配置中的默认上下文长度为256k。

以下是启用推理(默认设置)生成输出的示例:

messages = [
    {"role": "user", "content": "Write a haiku about GPUs"},
]

tokenized_chat = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

if not isinstance(tokenized_chat, torch.Tensor):
    input_ids = tokenized_chat["input_ids"]
else:
    input_ids = tokenized_chat

outputs = model.generate(
    input_ids,
    max_new_tokens=50,
    temperature=1.0,
    top_p=0.95,
    eos_token_id=tokenizer.eos_token_id
)

print(tokenizer.decode(outputs[0]))

要禁用推理功能,请在 apply_chat_template() 中添加 enable_thinking=False。默认情况下,enable_thinking 设为 True。

tokenized_chat = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    enable_thinking=False,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

训练和评估数据集

训练

数据模态: 文本 总规模: 15,573,172,908,990 个 Token 数据集总数: 153 个 数据集划分: 训练 [100%]、测试 [0%]、验证 [0%] 训练数据收集时间段: 2013 年至 2026 年 2 月 24 日 测试数据收集时间段: 2013 年至 2026 年 2 月 24 日 验证数据收集时间段: 2013 年至 2026 年 2 月 24 日 按数据集的数据收集方法: 混合:自动化、人工、合成 按数据集的标注方法: 混合:自动化、人工、合成

NVIDIA-Nemotron-3-Super-120B-A12B-BF16 是在大规模高质量精选和合成生成数据集上进行预训练的。其训练语言包括英语,以及其他 19 种自然语言和 43 种编程语言。我们的数据源涵盖了多种文档类型,如网页、对话、文章和其他书面材料。语料库跨越法律、数学、科学、金融等多个领域。我们还纳入了一小部分问答和对齐风格的数据,以提高模型的准确性。该模型的训练量约为 25 万亿个 token。

NVIDIA-Nemotron-3-Super-120B-A12B-BF16 的后训练语料库同样由高质量的精选和合成生成数据组成。后训练使用的主要语言包括英语、法语、德语、意大利语、日语、西班牙语和中文。

这些数据集,例如 FinePDFs、EssentialWeb、HotpotQA、SQuAD 和 HelpSteer3,并未集体或详尽地代表所有人口统计群体(及其比例)。例如,根据来源不同,这些数据集在 64-99% 的样本中不包含年龄、性别或种族等人口统计类别的明确提及。在存在此类术语的子集中,基于文档的数据集(FinePDFs 和 EssentialWeb)存在代表性偏差,例如“男性”的提及次数多于“女性”,“白人”是种族标识符中最常见的提及(占种族提及的 43-44%)。为了减轻这些不平衡,我们建议考虑采用诸如偏差审计、使用人口统计平衡的数据集进行微调以及反事实数据增强等缓解策略,以与期望的模型行为保持一致。本评估在每个数据集上使用了 3,000 个样本的子集,这被确定为最大化嵌入器准确性的最佳阈值。

在后训练期间,我们通过从强大的教师模型和智能体系统中提取轨迹、解决方案和翻译来生成合成数据,这些数据通常以真实任务或文档为基础,并经过严格的质量筛选。对于数学、代码和科学领域,我们从精选的问题集开始,使用诸如 GPT-OSS-120B 之类的开源许可模型来生成逐步推理轨迹、候选解决方案、best-of-n 选择轨迹以及经过验证的 CUDA 内核。对于长上下文和科学领域,我们通过从长文档中检索段落、生成多选题/开放式问答(MCQ/OpenQA)问题与答案,并将其改写为多种提示/响应格式以确保多样性,从而构建合成问答和推理数据。在所有流程中,我们都叠加了自动化验证(编译器、数值检查、语言识别),以确保我们的数据是高质量的。

对于所有领域,我们应用统一的数据过滤流程,以确保只有高质量、符合许可要求且可验证的样本用于后训练。我们首先使用结构检查丢弃格式错误的示例(例如,当存在工具调用时缺少工具定义)。然后,我们严格过滤表现出病态重复的推理轨迹,例如在滑动窗口内或整个轨迹中重复出现的 n-gram,我们发现这是推理格式错误或质量低下的强烈指标。最后,基于对合成生成数据集的内部审计,我们观察到一些教师模型偶尔会产生隐含地与特定政治实体保持一致或宣扬民族主义叙事的推理轨迹和最终响应。为了缓解这一问题,我们应用了基于关键词和正则表达式的定向过滤器,并移除所有匹配此类行为的轨迹。

除模型外,我们还发布了本节所述的最终预训练和后训练数据。为便于分析,提供了一个无需权限的样本集。对于所有其余的代码、数学和多语言数据,则需要权限和审批,并且该数据集获得了用于模型训练目的的宽松许可。

有关数据集和合成数据生成方法的更多详细信息,请参见技术报告《NVIDIA Nemotron 3 Super》。

点击查看用于训练的完整数据集目录

基础预训练语料库(Nemotron 3 基础版)

该模型的基础是在 Nemotron-3-Nano 语料库上训练的,该语料库包括以下集合:

数据集集合Token 数量描述
Nemotron-CC-v2 和 v2.19.13T从 Common Crawl 过滤得到的大规模英语网络数据集合,包括 2.5T 以上的新原创、翻译和合成改写内容。
Nemotron-CC-Code-v1427.9B使用 Lynx + LLM 流水线从 Common Crawl 中提取的高质量代码 token,以保留结构和公式。
Nemotron-Pretraining-Code-v1 和 v21.09T经过多阶段过滤、去重的精选 GitHub 代码参考,以及大规模合成代码数据。
Nemotron-CC-Math-v1133.3B高质量数学预训练数据集,保留 LaTeX 格式和数学结构。
Nemotron-Pretraining-Specialized-v1336.4B针对 STEM 推理和科学编码等专业领域的合成数据集。

公开数据集

数据集收集周期
GSM8K2025年4月23日
CC-NEWS2025年4月23日
Common Crawl2025年4月23日
Wikimedia2025年4月23日
Bespoke-Stratos-17k2025年4月23日
tigerbot-kaggle-leetcodesolutions-en-2k2025年4月23日
glaive-function-calling-v22025年4月23日
APIGen Function-Calling2025年4月23日
LMSYS-Chat-1M2025年4月23日
Open Textbook Library - CC BY-SA & GNU subset 和 OpenStax - CC BY-SA subset2025年4月23日
Advanced Reasoning Benchmark、tigerbot-kaggle-leetcodesolutions-en-2k、PRM800K 和 SciBench2025年4月23日
FineWeb-22025年4月23日
Court Listener历史下载
peS2o历史下载
OpenWebMath历史下载
BioRxiv历史下载
PMC Open Access Subset历史下载
OpenWebText2历史下载
Stack Exchange Data Dump历史下载
PubMed Abstracts历史下载
NIH ExPorter历史下载
arXiv历史下载
BigScience Workshop Datasets历史下载
Reddit Dataset历史下载
SEC's Electronic Data Gathering, Analysis, and Retrieval (EDGAR)历史下载
Advanced Mathematical Problem Solving历史下载
MathPile历史下载
NuminaMath CoT历史下载
PMC Article历史下载
FLAN历史下载
Advanced Reasoning Benchmark历史下载
SciBench历史下载
WikiTableQuestions历史下载
FinQA历史下载
Riddles历史下载
Problems in Elementary Mathematics for Home Study历史下载
MedMCQA历史下载
Cosmos QA历史下载
MCTest历史下载
AI2's Reasoning Challenge历史下载
OpenBookQA历史下载
MMLU Auxiliary Train历史下载
social-chemestry-101历史下载
Moral Stories历史下载
The Common Pile v0.1历史下载
FineMath历史下载
MegaMath历史下载
MultiverseMathHard2025年10月2日
News Commentary2025年10月2日
Essential-Web2025年10月2日
finepdfs2025年10月2日
HotpotQA2025年10月2日
SQuAD2.02025年10月2日
NLTK Words Lists2025年10月2日
来自 Nemotron-Cascade-RL-SWE 的竞争性编码强化学习数据2026年1月10日
NL2Bash2026年1月10日
SWE-Gym2026年1月10日
R2E-Gym-Subset2026年1月10日
SWE-bench_Verified2026年1月10日

由 NVIDIA 从在线来源抓取和搜集

英语 Common Crawl 数据从 Common Crawl 基金会下载(其抓取详情参见该基金会常见问题解答),包含 CC-MAIN-2013-20 至 CC-MAIN-2025-13 的快照。随后,数据按照《Nemotron-CC 论文》中描述的多种方式进行去重和过滤。此外,我们从以下三个 Common Crawl 快照中提取了十五种语言的数据:CC-MAIN-2024-51、CC-MAIN-2025-08、CC-MAIN-2025-18。这十五种语言包括阿拉伯语、中文、丹麦语、荷兰语、法语、德语、意大利语、日语、韩语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语和泰语。由于缺乏可靠的基于多语言模型的质量分类器,我们仅采用启发式过滤——与 Nemotron-CC 流程中对低质量英语数据的处理方式类似,但针对部分效果不佳的语言选择性地移除了部分过滤条件。去重操作与 Nemotron-CC 的处理方式一致。

GitHub 抓取通过 GitHub REST API 和 Amazon S3 API 进行收集。每次抓取均严格遵守来源方(GitHub 或 S3)设定的速率限制。我们收集原始源代码,随后移除所有未包含在我们宽松许可证集合中的许可内容(更多详情请参见技术报告)。

数据集模态数据集大小收集时间收集机构
English Common CrawlText3.36T4/8/2025NVIDIA Advanced Deep Learning Research
English Common Crawl 1.1TextNot disclosed10/2/2025NVIDIA Advanced Deep Learning Research
Multilingual Common CrawlText812.7B5/1/2025NVIDIA Advanced Deep Learning Research
GitHub CrawlText747.4B4/29/2025NVIDIA Advanced Deep Learning Research

第三方私有非公开访问数据集

数据集使用的模型
全球法规未知
TAUS 翻译记忆库未知
Scale HLE未知
HackerRank 编程未知
搜索用强化学习数据Gemini 3;GPT-5 *
  • 仅用于提示生成的模型

NVIDIA 私有非公开访问数据集

数据集使用的模型
简易扫雷-
简易数独-
多工具打字机高级版-
新闻评论和 TAUS 翻译记忆库的机器翻译-
STEM 的机器翻译Qwen2.5-14B-Instruct
来自 Nemotron Cascade 的竞技编程强化学习数据-
长上下文强化学习-
用于补丁生成的单步 SWE 强化学习-
OpenHands SWE-

NVIDIA 来源的合成数据集

数据集模态数据集大小种子数据集用于生成的模型
Nemotron-Pretraining-Formal-Logic文本128,022,285Nemotron PersonasQwen3-235B-A22B-Thinking-2507
Nemotron-Pretraining-Economics文本73,374,154-Qwen3-235B-A22B-Thinking-2507
Nemotron-Pretraining-Multiple-Choice文本1,609,214,470MMLU Auxiliary TrainDeepSeek-V3; Qwen3-235B-A22B
Nemotron-Pretraining-Code-Concepts文本7,294,510,156-gpt-oss-20b; gpt-oss-120b
Nemotron-Pretraining-Unconditional-Algorithmic文本196,492,899-gpt-oss-120b; Qwen3-235B-A22B
Synthetic Tasks from DeepSeek-V3 and Qwen3-235B-A22B文本6.7BInto the Unknown 的训练分割;AI2 ARC(AI2 推理挑战);BLiMP(语言最小对基准);CommonSenseQA;GLUE;HeadQA;Hendrycks Ethics;Memo Trap;modus-tollens;NeQA;pattern-matching-suppression;mastermind_24_mcq_random;mastermind_24_mcq_close;quote-repetition;redefine-math;Repetitive Algebra;sig-figs;MMLU-Pro;MC-TACO;MedConceptsQA;MMLU_dataset;OpenbooksQA;PIQA(物理交互问答);SocialIQA;SuperGLUE;tinyAI2_arc;tinyMMLU;tinyWinogrande;TruthfulQA;WebQuestions;Winogrande;GPQA;MBPPDeepSeek v3; Qwen3-235B-A22B
Synthetic Art of Problem Solving from DeepSeek-R1文本40BArt of Problem Solving; American Mathematics Competitions 8; American Mathematics Competitions 10;DeepSeek-R1
Synthetic Moral Stories and Social Chemistry from Mixtral-8x22B-v0.1文本327Msocial-chemestry-101; Moral StoriesMixtral-8x22B-v0.1
Synthetic Social Sciences seeded with OpenStax from DeepSeek-V3, Mixtral-8x22B-v0.1, and Qwen2.5-72B文本83.6MOpenStax - CC BY-SA subsetDeepSeek-V3; Mixtral-8x22B-v0.1; Qwen2.5-72B
Synthetic Health Sciences seeded with OpenStax from DeepSeek-V3, Mixtral-8x22B-v0.1, and Qwen2.5-72B文本9.7MOpenStax - CC BY-SA subsetDeepSeek-V3; Mixtral-8x22B-v0.1; Qwen2.5-72B
Synthetic STEM seeded with OpenStax, Open Textbook Library, and GSM8K from DeepSeek-R1, DeepSeek-V3, DeepSeek-V3-0324, and Qwen2.5-72B文本175MOpenStax - CC BY-SA subset; GSM8K; Open Textbook Library - CC BY-SA & GNU subsetDeepSeek-R1, DeepSeek-V3; DeepSeek-V3-0324; Qwen2.5-72B
Nemotron-PrismMath文本4.6BBig-Math-RL-Verified; OpenR1-Math-220kQwen2.5-0.5B-instruct, Qwen2.5-72B-Instruct; DeepSeek-R1-Distill-Qwen-32B
Synthetic Question Answering Data from Papers and Permissible Books from Qwen2.5-72B-Instruct文本350MarXiv; National Institutes of Health ExPorter; BioRxiv; PMC Article; USPTO Backgrounds; peS2o; Global Regulation; CORE; PG-19; DOAB CC BY & CC BY-SA subset; NDLTDQwen2.5-72B-Instruct
Refreshed Nemotron-MIND from phi-4文本73BCommon Crawlphi-4
Nemotron-CC-Math-4plus文本52.3BCommon Crawlphi-4
Nemotron-CC-Math-3文本80.9BCommon Crawlphi-4
Synthetic AGIEval seeded with AQUA-RAT, LogiQA, and AR-LSAT from DeepSeek-V3 and DeepSeek-V3-0324文本4.0BAQUA-RAT; LogiQA; AR-LSATDeepSeek-V3; DeepSeek-V3-0324
Synthetic AGIEval seeded with AQUA-RAT, LogiQA, and AR-LSAT from Qwen3-30B-A3B文本4.2BAQUA-RAT; LogiQA; AR-LSATQwen3-30B-A3B
Synthetic Art of Problem Solving from Qwen2.5-32B-Instruct, Qwen2.5-Math-72B, Qwen2.5-Math-7B, and Qwen2.5-72B-Instruct文本Art of Problem Solving; American Mathematics Competitions 8; American Mathematics Competitions 10; GSM8K; PRM800KQwen2.5-32B-Instruct; Qwen2.5-Math-72B; Qwen2.5-Math-7B; Qwen2.5-72B-Instruct
Synthetic MMLU Auxiliary Train from DeepSeek-R1文本0.5BMMLU Auxiliary TrainDeepSeek-R1
Synthetic Long Context Continued Post-Training Data from Papers and Permissible Books from Qwen2.5-72B-Instruct文本arXiv; National Institutes of Health ExPorter; BioRxiv; PMC Article; USPTO Backgrounds; peS2o; Global Regulation; CORE; PG-19; DOAB CC BY & CC BY-SA subset; NDLTDQwen2.5-72B-Instruct
Synthetic Common Crawl from Qwen3-30B-A3B and Mistral-Nemo-12B-Instruct文本415.8BCommon CrawlQwen3-30B-A3B; Mistral-NeMo-12B-Instruct
Synthetic Multilingual Data from Common Crawl from Qwen3-30B-A3B文本Common CrawlQwen3-30B-A3B
Synthetic Multilingual Data from Wikimedia from Qwen3-30B-A3B文本WikimediaQwen3-30B-A3B
Synthetic Math Data from Wikimedia from Nemotron-4-340B-Instruct文本-Nemotron-4-340B-Instruct
Synthetic Common Crawl Code from phi-4文本427.9BCommon Crawlphi-4
Synthetic Scientific Coding from Qwen3-235B-A22B文本1.2BWikimediaQwen3-235B-A22B
Tool Calling Data文本26.2BQwen3-235B-A22B-2507; gpt-oss-120b
Synthetic Essential-Web from QwQ-32B文本28.1BEssential-WebQwQ-32B
Translated Synthetic Crawl文本389.9BCommon CrawlQwen3-30B-A3B
Translated Synthetic Wikipedia文本7.9BWikimediaQwen3-30B-A3B
Synthetic Art of Problem Solving from gpt-oss-120b and Qwen2.5-32B-Instruct文本未公开Art of Problem Solving; American Mathematics Competitions 8; American Mathematics Competitions 10gpt-oss-120b; Qwen2.5-32B-Instruct
Synthetic Stack Exchange from gpt-oss-120b and Qwen2.5-32B-Instruct文本未公开Stack Exchangegpt-oss-120b; Qwen2.5-32B-Instruct
Synthetic OpenCodeReasoning from DeepSeek-R1-0528文本未公开OpenCodeReasoningDeepSeek-R1-0528
Synthetic HackerRank Coding from DeepSeek-R1-0528文本未公开HackerRank 编码数据集DeepSeek-R1-0528
Synthetic SWE-Gym from Qwen3-Coder-480B-A35B-Instruct文本未公开SWE-GymQwen3-Coder-480B-A35B-Instruct
Synthetic Art of Problem Solving and Stack Exchange from gpt-oss-120b, Qwen2.5-32B-Instruct, and Goedel-Prover-V2-32B文本未公开Art of Problem Solving; American Mathematics Competitions 8; American Mathematics Competitions 10; Stack Exchangegpt-oss-120b; Qwen2.5-32B-Instruct; Goedel-Prover-V2-32B
Synthetic Multilingual Science and Code data from DeepSeek-R1, DeepSeek-R1-0528, Qwen2.5-32B-Instruct, and Qwen3-235B-A22B, translated with Qwen2.5-32B-Instruct and Qwen2.5-14B-Instruct文本未公开Stack Exchange; SCP-116K; LIMO; TACO; 编程竞赛;CodeforcesDeepSeek-R1; DeepSeek-R1-0528; Qwen2.5-32B-Instruct; Qwen3-235B-A22B;
Synthetic Safety from DeepSeek-R1-0528, gpt-oss-120b and Mixtral-8x7B-v0.1文本未公开Nemotron Content Safety Dataset V2; Gretel Synthetic Safety Alignment Dataset; RedTeam-2K; Malicious Tasks; Nemotron-Personas-USADeepSeek-R1-0528; gpt-oss-120b; Mixtral-8x7B-v0.1
Synthetic STEM from Qwen3-235B-A22B-Instruct-2507 and gpt-oss-120b文本未公开arXiv; National Institutes of Health ExPorter; BioRxiv; PMC Article; USPTO Backgrounds; peS2o; Global Regulation; CORE; PG-19; DOAB CC BY & CC BY-SA subset; NDLTDQwen3-235B-A22B-Instruct-2507; gpt-oss-120b
Synthetic KernelBook from DeepSeek-R1-0528文本未公开KernelBookDeepSeek-R1-0528
Synthetic Tool Calling from Qwen3-235B-A22B-Thinking-2507 and Qwen3-Next-80B-A3B-Thinking文本未公开ToolBench; glaive-function-calling-v2; APIGen Function-Calling; Nemotron-Personas-USAQwen3-235B-A22B-Thinking-2507; Qwen3-Next-80B-A3B-Thinking
Synthetic Chat from gpt-oss-120b, Mixtral-8x22B-Instruct-v0.1, Qwen3-235B-A22B-Instruct-2507 , and Qwen3-235B-A22B-Thinking-2507文本未公开C4; LMSYS-Chat-1M; ShareGPT; GSM8K; PRM800K; FinQA; WikiTableQuestions; Riddles; glaive-function-calling-v2; SciBench; tigerbot-kaggle-leetcodesolutions-en-2k; OpenBookQA; Advanced Reasoning Benchmark; Software Heritage; Khan Academy Math Keywords; WildChat-1M; Nemotron-Personas-USAgpt-oss-120b; Mixtral-8x22B-Instruct-v0.1; Qwen3-235B-A22B-Instruct-2507; Qwen3-235B-A22B-Thinking-2507
Synthetic Long Context from Qwen3-235B-A22B-Instruct-2507文本未公开CORE; PG-19; DOAB CC BY & CC BY-SA subset; NDLTDQwen3-235B-A22B-Instruct-2507
Synthetic Tool Use Interactive Agent from gpt-oss-120b, DeepSeek-R1-0528, Qwen3-32B, and Qwen3-235B-A22B-Thinking-2507文本未公开NVIDIA 内部gpt-oss-120b; DeepSeek-R1-0528; Qwen3-32B; 和 Qwen3-235B-A22B-Thinking-2507
Synthetic STEM from Qwen3-235B-A22B-Thinking-2507文本未公开ICHO-IPH0; Physics Big; Scale HLE; OpenMathReasoning; OpenCodeReasoningQwen3-235B-A22B-Thinking-2507
Synthetic DocFinQA and SWE-smith from Qwen3-Coder-480B-A35B-Instruct and Kimi-K2-Thinking文本未公开DocFinQA; SWE-smithQwen3-Coder-480B-A35B-Instruct; Kimi-K2-Thinking
来自 gpt-oss-120b 和 Qwen2.5-32B-Instruct 的合成数学数据文本未公开-gpt-oss-120b; Qwen2.5-32B-Instruct
来自 gpt-oss-120b 的合成 Essential-Web 数据文本未公开Essential-Webgpt-oss-120b
来自 gpt-oss-120b 的合成 Scale HLE 数据文本未公开Scale HLEgpt-oss-120b
来自 gpt-oss-120b 的合成 CDQuestions 数据文本未公开CDQuestionsgpt-oss-120b
来自 gpt-oss-120b 的合成 Stack Exchange 数据文本未公开Stack Exchangegpt-oss-120b
来自 gpt-oss-120b 和 Qwen2.5-32B-Instruct 的合成 GPQA 数据文本未公开Stack Exchangegpt-oss-120b; Qwen2.5-32B-Instruct
来自 gpt-oss-120b 的合成 Vedantu 数据文本未公开Vedantugpt-oss-120b
来自 Qwen3-Coder-480B-A35B-Instruct 的合成 SWE-Gym 和 R2E-Gym-Subset 数据文本未公开SWE-Gym; R2E-Gym-SubsetQwen3-Coder-480B-A35B-Instruct
来自 Qwen3-Coder-480B-A35B-Instruct 的合成 SWE-Gym 数据文本未公开SWE-GymQwen3-Coder-480B-A35B-Instruct
来自 DeepSeek-R1-0528 的合成 SWE-Gym 和 R2E-Gym-Subset 数据文本未公开SWE-Gym; R2E-Gym-SubsetDeepSeek-R1-0528
来自 gpt-oss-120b、Qwen3-235B-A22B-Instruct-2507 和 Qwen3-235B-A22B-Thinking-2507 的合成 HelpSteer、LMSYS-Chat-1M 和 Nemotron-Personas-USA 数据文本未公开HelpSteer2; HelpSteer3; LMSYS-Chat-1M; Nemotron-Personas-USAgpt-oss-120b; Qwen3-235B-A22B-Instruct-2507; Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-30B-A3B-Instruct-2507、Qwen3-30B-A3B-Thinking-2507、Qwen3-235B-A22B-Instruct-2507 和 Qwen3-235B-A22B-Thinking-2507 的合成结构化输出数据文本未公开-Qwen3-30B-A3B-Instruct-2507; Qwen3-30B-A3B-Thinking-2507; Qwen3-235B-A22B-Instruct-2507; Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-235B-A22B 和 DeepSeek-R1-0528 的合成搜索 STEM 多选题数据文本未公开-Qwen3-235B-A22B; DeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成搜索 STEM 开放题数据文本未公开-DeepSeek-R1-0528
来自 Qwen2.5-32B-Instruct 和 DeepSeek-R1-0528 的合成 OpenSTEM 数据文本未公开-Qwen2.5-32B-Instruct; DeepSeek-R1-0528
来自 Qwen2.5-32B-Instruct 和 DeepSeek-R1-0528 的合成多选题数据文本未公开-Qwen2.5-32B-Instruct; DeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成 MCQ10 数据文本未公开-DeepSeek-R1-0528
来自 Qwen3-235B-A22B、DeepSeek-R1-0528 和 Qwen3-235B-A22B-Instruct-2507 的合成 MCQ4 数据文本未公开-Qwen3-235B-A22B; DeepSeek-R1-0528; Qwen3-235B-A22B-Instruct-2507
来自 gpt-oss-120b 和 Qwen2.5-32B-Instruct 的合成 OpenMathReasoning 数据文本未公开OpenMathReasoninggpt-oss-120b; Qwen2.5-32B-Instruct
来自 DeepSeek-R1-0528 的合成离线搜索 MCQA HLE 数据文本未公开-DeepSeek-R1-0528
来自 Qwen3-235B-A22B 和 DeepSeek-R1-0528 的合成离线搜索 MCQA GPQA 数据文本未公开-Qwen3-235B-A22B; DeepSeek-R1-0528
来自 QwQ-32B、Qwen3-30B-A3B、Qwen3-235B-A22B、Qwen3-235B-A22B-Instruct-2507、Mistral-Small-3.1-24B-Instruct-2503、Mistral-Small-3.2-24B-Instruct-2506、MiniMax-M1-80k、MiniMax-M1-40k、Kimi-K2-Instruct、DeepSeek-V3-0324、DeepSeek-R1-0528 的合成人类偏好数据文本未公开-QwQ-32B; Qwen3-30B-A3B; Qwen3-235B-A22B; Qwen3-235B-A22B-Instruct-2507; Mistral-Small-3.1-24B-Instruct-2503; Mistral-Small-3.2-24B-Instruct-2506; MiniMax-M1-80k; MiniMax-M1-40k; Kimi-K2-Instruct; DeepSeek-V3-0324; DeepSeek-R1-0528
来自 DeepSeek-R1、gemma-2-2b-it、gemma-3-27b-it、gpt-oss-20b、gpt-oss-120b、Mistral-7B-Instruct-v0.3、Mixtral-8x22B-Instruct-v0.1、Nemotron-4-340B-Instruct、NVIDIA-Nemotron-Nano-9B-v2、Phi-4-mini-instruct、Phi-3-small-8k-instruct、Phi-3-medium-4k-instruct、Qwen3-235B-A22B、QwQ-32B 的合成 WildChat-1M 和 arena-human-preference-140k 数据文本未公开WildChat-1M; arena-human-preference-140kDeepSeek-R1; gemma-2-2b-it; gemma-3-27b-it; gpt-oss-20b; gpt-oss-120b; Mistral-7B-Instruct-v0.3; Mixtral-8x22B-Instruct-v0.1; Nemotron-4-340B-Instruct; NVIDIA-Nemotron-Nano-9B-v2; Phi-4-mini-instruct; Phi-3-small-8k-instruct; Phi-3-medium-4k-instruct; Qwen3-235B-A22B; QwQ-32B
来自 DeepSeek-R1-0528、gpt-oss-120b、DeepSeek-R1-Distill-Qwen-7B 和 Mixtral-8x7B-v0.1 的合成安全数据文本未公开Nemotron Content Safety Dataset V2; Gretel Synthetic Safety Alignment Dataset; RedTeam-2K; Malicious Tasks;DeepSeek-R1-0528; gpt-oss-120b; DeepSeek-R1-Distill-Qwen-7B; Qwen3-30B-A3B-Thinking-2507; Qwen3-235B-A22B-Instruct-2507; Mixtral-8x7B-v0.1
来自 Qwen3-32B 的合成代码数据文本未公开English Common Crawl; English Common Crawl 1.1Qwen3-32B
来自 DeepSeek-R1 的合成 OpenCodeReasoning 数据文本未公开OpenCodeReasoningDeepSeek-R1
来自 DeepSeek-R1-0528 的合成 LIMO 数据文本未公开LIMODeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成 SCP 数据文本未公开SCP-116KDeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成 Stack Exchange 数据文本未公开Stack ExchangeDeepSeek-R1-0528
来自 Qwen3-30B-A3B 的合成 Common Crawl 数据文本未公开Common CrawlQwen3-30B-A3B
来自 Qwen3-30B-A3B 的合成 Wikipedia 数据文本未公开WikimediaQwen3-30B-A3B
来自 Qwen3-30B-A3B 和 Qwen3-235B-A22B-Thinking-2507 的合成 Essential-Web 数据文本未公开Essential-WebQwen3-30B-A3B; Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-30B-A3B、Qwen3-235B-A22B、phi-4 的合成教科书数学数据文本未公开Common Crawl; FineMathQwen3-30B-A3B; Qwen3-235B-A22B; phi-4
来自 DeepSeek-R1 和 DeepSeek-R1-0528 的合成数学与代码数据文本未公开Magicoder-Evol-Instruct-110K; opc-sft-stage2; TACO; OpenCodeReasoning; OpenMathReasoning; NuminaMath CoTDeepSeek-R1; DeepSeek-R1-0528
来自 gpt-oss-120b 和 Qwen3-8B 的合成 Nemotron-Personas-USA 数据文本未公开Nemotron-Personas-USAgpt-oss-120b; Qwen3-8B
合成 Text-To-SQL 数据文本未公开-gpt-oss-12b
合成 Agentless SWE 数据文本未公开SWE-Bench-Train; SWE-Fixer-Train; SWE-reBench; SWE-smithDeepSeek-R1-0528
合成搜索图遍历数据文本未公开-MiniMax-M2
合成 CUDA 100k 数据文本未公开KernelBook; HuggingFace Transformers; FlashInferDeepSeek-R1-0528; gpt-oss-120b
合成安全数据文本未公开Nemotron Content Safety Dataset V2; Gretel Synthetic Safety Alignment Dataset; RedTeam-2K; HarmfulTasksgpt-oss-120b; NVIDIA-Nemotron-Nano-9B-v2; gemma-3-4b-it
合成智能体多样化领域数据文本未公开-DeepSeek-R1-0528; Qwen3-235B-A22B-Thinking-2507; Qwen3-235B-A22B-Instruct-2507; Qwen3-32B; gpt-oss-120b; DeepSeek-V3.2
合成 SWE 未验证数据文本未公开-gpt-oss-120b; Qwen3-Coder-480B-A35B-Instruct; GLM-4.7-Flash
来自 Deepseek-V3 的合成 Scale HLE 数据文本未公开Scale HLEDeepSeek-V3-0324
来自 Deepseek-V3 的合成 CDQuestions 数据文本未公开CDQuestionsDeepSeek-V3-0324
来自 Deepseek-V3 的合成 Stack Exchange 数据文本未公开Stack ExchangeDeepSeek-V3-0324
来自 Deepseek-V3 的合成 GPQA 数据文本未公开Stack ExchangeDeepSeek-V3-0324
来自 Deepseek-V3 的合成 Vedantu 数据文本未公开VedantuDeepSeek-V3-0324
用于 RL 的合成工具调用模式数据文本未公开ToolBench; glaive-function-calling-v2; APIGen Function-Calling; Nemotron-Personas-USAQwen3-235B-A22B-Thinking-2507; Qwen3-Next-80B-A3B-Thinking
合成搜索数据文本未公开WikimediaMiniMax-M2
用于 RL 的合成指令遵循数据文本未公开-NVIDIA-Nemotron-Nano-9B-v2; Qwen3-235B-A22B-Thinking-2507
合成对话式智能体工具使用 RL 数据文本未公开-DeepSeek-V3.2; DeepSeek-R1-0528; Qwen3-235B-A22B-Thinking-2507; Qwen3-32B; gpt-oss-120b; Qwen3-235B-A22B-Instruct-2507
合成终端枢纽 RL 数据文本未公开SWE-smith; Nemotron-Cascade-RL-SWE; Vendor suppliedDeepSeek-V3.2; Qwen3-Coder-480B-A35B-Instruct; Kimi-K2.5; Qwen3-235B-A22B-Instruct-2507

训练后语言分布

在我们的训练后方案中,除英语外,我们重点关注了9种主要语言:法语、德语、意大利语、日语、西班牙语和中文。

这些语言以多语言推理和翻译任务的形式呈现。

下表展示了我们针对6种语言和5个翻译语言对的样本分布情况。

语言规模
English13.48M
Italian53k
German53k
Spanish53k
French53k
Japanese53k
Chinese53k
English <-> Italian43.2k
English <-> German43.2k
English <-> Spanish43.2k
English <-> French43.2k
English <-> Japanese43.2k

评估数据集

  • 按数据集的数据收集方法:混合:人工、合成
  • 按数据集的标注方法:混合:自动化、人工、合成

推理

  • 加速引擎:PyTorch
  • 测试硬件:
    • NVIDIA Hopper
      • 1-8x H100
      • 1-8x H200
    • NVIDIA Grace Blackwell
      • GB200

伦理考量

NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持广泛的 AI 应用开发。当按照我们的服务条款下载或使用时,开发人员应与其内部模型团队合作,确保该模型满足相关行业和用例的要求,并应对意外的产品误用问题。

我们建议不要规避模型中包含的任何安全防护措施,除非为您的用例设置了实质上类似的防护措施。更多详情:安全 和 可解释性 子卡片。

有关此模型伦理考量的更多详细信息,请参阅 Model Card++ 的 偏见 和 隐私 子卡片。

请通过 此处 报告模型质量、风险、安全漏洞或 NVIDIA AI 相关问题。

引用

@misc{nvidia_nemotron_3_2025,
  title  = {NVIDIA Nemotron 3: Efficient and Open Intelligence},
  author = {{NVIDIA}},
  year   = {2025},
  url    = {https://arxiv.org/abs/2512.20856},
  note   = {White Paper}
}