HuggingFace镜像/NVIDIA-Nemotron-3-Super-120B-A12B-FP8
模型介绍文件和版本分析
下载使用量0

NVIDIA-Nemotron-3-Super-120B-A12B-FP8

Chat Paper Pre-Training Datasets Post-Training Datasets
Homepage Discord
License

模型摘要

总参数1200亿(120亿激活参数)
架构LatentMoE - Mamba-2 + MoE + 注意力混合架构,结合多令牌预测(MTP)
上下文长度最长100万令牌
最低GPU要求2× H100-80GB
支持语言英语、法语、德语、意大利语、日语、西班牙语、中文
最适场景智能体工作流、长上下文推理、高容量工作负载(如IT工单自动化)、工具调用、检索增强生成(RAG)
推理模式可通过聊天模板配置启用/禁用(enable_thinking=True/False)
许可证NVIDIA Nemotron Open Model License
发布日期2026年3月11日

快速开始

在所有任务和服务后端(推理、工具调用及通用聊天)中,均使用 temperature=1.0 和 top_p=0.95。

有关模型部署和使用的更多详细信息,请参见下方的快速入门指南!

模型概述

模型开发者:NVIDIA Corporation

模型开发时间:2025年12月 - 2026年3月

数据时效性:

  • 训练后数据的截止日期为2026年2月。
  • 预训练数据的截止日期为2025年6月。

什么是Nemotron?

NVIDIA Nemotron™ 是一系列开放模型,包含开放权重、训练数据和训练方案,旨在为构建专业AI智能体提供卓越的效率和准确性。

描述

Nemotron-3-Super-120B-A12B-FP8 是由NVIDIA训练的大型语言模型(LLM),旨在提供强大的智能体能力、推理能力和对话能力。它针对协作智能体和高容量工作负载(如IT工单自动化)进行了优化。与该系列的其他模型一样,它通过首先生成推理轨迹,然后得出最终响应的方式来处理用户查询和任务。模型的推理能力可通过聊天模板中的标志进行配置。

该模型采用混合潜在混合专家(LatentMoE) 架构,利用交错的Mamba-2和MoE层,以及精选的注意力层。与Nano模型不同,Super模型集成了多令牌预测(MTP) 层,以实现更快的文本生成和更高的质量,并使用NVFP4量化技术进行训练,以最大限度地提高计算效率。该模型总共有1200亿参数,其中120亿为激活参数。

支持的语言包括:英语、法语、德语、意大利语、日语、西班牙语和中文

此模型已准备好投入商业使用。

许可协议/使用条款

主导下载条款: 本模型的使用受 NVIDIA Nemotron 开放模型许可协议 管辖。

包含 NIM 的主导下载条款: NIM 容器受 NVIDIA 软件许可协议 和 AI 产品特定条款 管辖。本模型的使用受 NVIDIA Nemotron 开放模型许可协议 管辖。

基准测试

基准测试Nemotron-3-SuperNemotron-3-Super FP8Nemotron-3-Super NVFP4
通用知识
MMLU-Pro83.7383.6383.33
推理能力
HMMT Feb25(使用工具)94.7394.3895.36
GPQA(不使用工具)79.2379.3679.42
LiveCodeBench(v6 2024-08↔2025-05)78.6978.4478.44
LiveCodeBench(v5 2024-07↔2024-12)81.1980.9980.56
SciCode(子任务)42.0541.3840.83
HLE(不使用工具)18.2617.4217.42
智能体能力
Terminal Bench(困难子集)25.7826.0424.48
TauBench V2
航空56.2556.2554.75
零售62.8363.0563.38
电信64.3663.9363.27
平均值61.1561.0760.46
聊天与指令遵循
IFBench(提示词)72.5872.3273.30
Scale AI 多挑战55.2354.3552.8
Arena-Hard-V2(困难提示词)73.8876.0676.00
长上下文
AA-LCR58.3157.6958.06
RULER-500 @ 128k(每个任务 500 样本)96.7996.8595.99
RULER-500 @ 256k(每个任务 500 样本)96.6096.3396.52
RULER-500 @ 512k(每个任务 500 样本)96.0995.6696.23
多语言能力
MMLU-ProX(跨语言平均值)79.3579.2179.37

所有评估结果均通过 Nemo Evaluator SDK 收集,对于大多数基准测试,还使用了 Nemo Skills Harness。为确保可复现性,有关评估设置的更多详细信息,请参见 Nemo Evaluator SDK 配置文件夹 和 Nemotron 3 Super 复现教程。用于评估的、通过 NVIDIA 的 Nemo Evaluator SDK 打包的 Nemo Skills 开源容器可在 此处 找到。除 Nemo Skills 外,评估还使用了专用于 Tau-2 Bench(默认提示词)、Terminal Bench Hard(48 个任务)、ScaleAI 多挑战多轮指令遵循以及 Ruler 的开源打包容器。

以下基准测试尚未集成到我们的开源工具中,对于这些测试,我们要么使用了其官方开源实现,要么使用了我们计划在未来开源的内部框架:SWE Bench Verified(OpenHands)、SWE Bench Multilingual(OpenHands)、BrowseComp with Search(使用 Serp API 的内部实现)、Terminal Bench Core 2.0(Harbor)。

部署地域:全球

用例

NVIDIA-Nemotron-3-Super-120B-A12B-FP8 是一款通用推理与对话模型,适用于英语、代码及支持的多语言场景。该模型针对协作型智能体和高容量工作负载进行了优化,供开发人员用于设计 AI 智能体系统、聊天机器人、RAG 系统及其他 AI 驱动的应用。此外,该模型也适用于复杂指令遵循任务和长上下文推理。

发布日期

Hugging Face - 2026 年 3 月 11 日,通过 Hugging Face

参考资料

  • Hugging Face 上的 NVIDIA Nemotron 3 模型系列
  • NVIDIA Nemotron 3 Super 技术报告

模型架构

  • 架构类型:Mamba2-Transformer 混合 latent 专家混合体(LatentMoE),带多 token 预测(MTP)
  • 网络架构:Nemotron Hybrid LatentMoE
  • 模型参数数量:总计 1200 亿 / 活跃 120 亿

模型设计

该模型采用 LatentMoE 架构,将 token 投影到更小的 latent 维度以进行专家路由和计算,从而提高每字节的精度。Super 模型使用 NVFP4 量化进行预训练,是 Nemotron 3 系列中首个以此精度训练的模型。大部分线性层的权重、激活和梯度采用 NVFP4,而部分精选层(包括 latent 投影层、MTP 层、QKV/注意力投影层和嵌入层)则保持 BF16 或 MXFP8 精度以确保训练稳定性。模型包含 多 token 预测(MTP) 层,在各预测头间采用共享权重设计。相比独立训练的偏移头,这一设计提升了训练信号质量,通过原生推测解码实现更快推理,并支持在更长草稿长度下进行更稳定的自回归草稿生成。

训练方法

阶段 1:预训练

  • NVIDIA-Nemotron-3-Super-120B-A12B-Base-BF16 模型使用爬取的以及合成的代码、数学、科学和通用知识数据进行了超过 25T tokens 的预训练。训练利用 NVFP4 量化以提高效率。所有数据集均在本文档的训练和评估数据集部分中披露。预训练语料库的主要部分在 Nemotron-Pre-Training-Datasets 集合中发布。
  • 用于预训练的软件:Megatron-LM

阶段 2:监督微调

  • 模型在合成代码、数学、科学、工具调用、指令遵循、结构化输出和通用知识数据上进行了进一步微调。此阶段整合了旨在支持长程检索和多文档聚合的数据。所有数据集均在本文档的训练和评估数据集部分中披露。微调语料库的主要部分在 Nemotron-Post-Training-v3 集合中发布。Data Designer 是用于准备这些语料库的库之一。

阶段 3:强化学习

  • 模型在数学、代码、科学、指令遵循、多步骤工具使用、多轮对话和结构化输出环境中,使用异步 GRPO(Group Relative Policy Optimization,组相对策略优化)进行了多环境强化学习。它利用了异步 RL 架构,该架构在单独的 GPU 设备上完全解耦训练和推理,并利用飞行中权重更新和 MTP 加速 rollout 生成。通过 RLHF 进一步优化了对话质量。所有数据集均在本文档的“训练和评估数据集”部分中披露。RL 环境和数据集作为 NeMo Gym 的一部分发布。
  • 用于强化学习的软件:NeMo RL、NeMo Gym

NVIDIA-Nemotron-3-Super-120B-A12B-FP8 模型是上述工作的成果。

端到端训练方案可在 NVIDIA Nemotron Developer Repository 中获取。评估结果可使用 NeMo Evaluator SDK 复现。Data Designer 是用于准备预训练和训练后数据集的库之一。有关数据集和合成数据生成方法的更多详细信息,请参见技术报告 NVIDIA Nemotron 3 Super Technical Report。

输入

  • 输入类型: 文本
  • 输入格式: 字符串
  • 输入参数: 一维(1D):序列
  • 与输入相关的其他属性: 最大上下文长度可达 100 万 tokens。支持的语言包括:英语、法语、德语、意大利语、日语、西班牙语和中文

输出

  • 输出类型: 文本
  • 输出格式: 字符串
  • 输出参数: 一维(1D):序列
  • 与输出相关的其他属性: 最大上下文长度可达 100 万 tokens

我们的 AI 模型经过专门设计和优化,可在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件(例如 GPU 核心)和软件框架(例如 CUDA 库),与仅使用 CPU 的解决方案相比,该模型实现了更快的训练和推理时间。

软件集成

  • 运行时引擎:NeMo 25.11.01
  • 支持的硬件微架构兼容性:NVIDIA Ampere - A100;NVIDIA Blackwell;NVIDIA Hopper - H100-80GB
  • 操作系统:Linux

将基础模型和微调模型集成到 AI 系统中,需要使用特定用例的数据进行额外测试,以确保安全有效的部署。遵循 V 模型方法论,在单元级和系统级进行迭代测试和验证至关重要,这有助于在部署前降低风险、满足技术和功能要求,并确保符合安全和道德标准。

模型版本

  • v1.0 - GA

快速入门指南

对于每个推理后端,您需要自定义的 super_v3 推理解析器。通过以下方式下载:

wget https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8/raw/main/super_v3_reasoning_parser.py

或

curl -O https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8/raw/main/super_v3_reasoning_parser.py

如需高级部署配置,请访问此资源。


vLLM

有关更多详细信息,请参见此使用指南。

pip install vllm==0.18.1
# with uv: uv pip install vllm==0.18.1 --torch-backend=auto

export MODEL_CKPT=nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8
# Optional: --enable-expert-parallel
vllm serve $MODEL_CKPT \
  --served-model-name nvidia/nemotron-3-super \
  --async-scheduling \
  --dtype auto \
  --kv-cache-dtype fp8 \
  --tensor-parallel-size 4 \
  --max-model-len 262144 \
  --enable-expert-parallel \
  --swap-space 0 \
  --trust-remote-code \
  --gpu-memory-utilization 0.9 \
  --max-cudagraph-capture-size 128 \
  --enable-chunked-prefill \
  --mamba-ssm-cache-dtype float32 \
  --reasoning-parser nemotron_v3 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder

上文默认上下文长度为 256k。若要使用最高 1M 的上下文长度,请设置 VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 和 --max-model-len 1048576。

B200/B300 (FP8): FP8 检查点可在单块 GPU 上运行。设置 --tensor-parallel-size 1 并移除 --enable-expert-parallel。其他所有标志保持不变。


SGLang

容器:

docker pull lmsysorg/sglang:nightly-dev-cu13-20260316-d852f26c

如需了解更多详细信息,请参见此使用指南。

sglang serve \
  --model-path nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8 \
  --served-model-name nvidia/nemotron-3-super \
  --trust-remote-code \
  --tp 4 \
  --ep 4 \
  --tool-call-parser qwen3_coder \
  --reasoning-parser nemotron_3

上文默认上下文长度为256k。若要使用高达1M的上下文长度,请设置SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1和--context-length 1048576。

B200/B300 (FP8):FP8检查点可在单块GPU上运行。设置--tp 1 --ep 1。其他所有标志保持不变。


TRT-LLM

容器:

docker pull nvcr.io/nvidia/tensorrt-llm/release:1.3.0rc8

如需了解更多详细信息,请参见本使用指南。

cat > ./extra-llm-api-config.yml << EOF
kv_cache_config:
  dtype: fp8
  enable_block_reuse: false
  free_gpu_memory_fraction: 0.8
  mamba_ssm_cache_dtype: float16
  mamba_ssm_stochastic_rounding: true
  mamba_ssm_philox_rounds: 5
moe_config:
  backend: TRTLLM
cuda_graph_config:
  enable_padding: true
  max_batch_size: 128
enable_attention_dp: true
enable_chunked_prefill: true
num_postprocess_workers: 4
stream_interval: 10
EOF

trtllm-serve nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8 \
  --host 0.0.0.0 \
  --port 8123 \
  --max_batch_size 128 \
  --tp_size 4 --ep_size 4 \
  --max_num_tokens 8192 \
  --trust_remote_code \
  --reasoning_parser nano-v3 \
  --tool_parser qwen3_coder \
  --extra_llm_api_options extra-llm-api-config.yml

B200/B300 (FP8):FP8 检查点可在单块 GPU 上运行。设置 --tp_size 1 --ep_size 1 并在配置文件中设置 enable_attention_dp: false。所有其他标志保持不变。

API 客户端

以下示例使用与 OpenAI 兼容的客户端,可与上述任何服务后端配合使用。

注意:对于编码代理,请在 API 调用中添加以下内容 - extra_body={“chat_template_kwargs”: {“force_nonempty_content”: True}

from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")
MODEL = "nvidia/nemotron-3-super"

推理开启(默认)

response = client.chat.completions.create(
    model=MODEL,
    messages=[{"role": "user", "content": "Write a haiku about GPUs"}],
    max_tokens=16000,
    temperature=1.0,
    top_p=0.95,
    extra_body={"chat_template_kwargs": {"enable_thinking": True}}
)
print(response.choices[0].message.content)

推理关闭

response = client.chat.completions.create(
    model=MODEL,
    messages=[{"role": "user", "content": "What is the capital of Japan?"}],
    max_tokens=16000,
    temperature=1.0,
    top_p=0.95,
    extra_body={"chat_template_kwargs": {"enable_thinking": False}}
)
print(response.choices[0].message.content)

低耗推理

使用的推理令牌数量明显少于完整思考模式。建议在调整明确令牌预算前将其作为起点。

response = client.chat.completions.create(
    model=MODEL,
    messages=[{"role": "user", "content": "What is the capital of Japan?"}],
    max_tokens=16000,
    temperature=1.0,
    top_p=0.95,
    extra_body={"chat_template_kwargs": {"enable_thinking": True, "low_effort": True}}
)
print(response.choices[0].message.content)

OpenCode

OpenCode 是一款可在终端运行的 AI 编码代理。它能连接至任何与 OpenAI 兼容的端点,因此可与上述所有三种服务后端(vLLM、SGLang 和 TRT-LLM)兼容。

创建或更新您的 ~/.config/opencode/opencode.json:

{
    "$schema": "https://opencode.ai/config.json",
    "model": "local/nvidia-nemotron-3-super",
    "provider": {
        "local": {
            "npm": "@ai-sdk/openai-compatible",
            "name": "local_backend",
            "options": {
                "baseURL": "http://localhost:8000/v1",
                "apiKey": "EMPTY"
            },
            "models": {
                "nvidia-nemotron-3-super": {
                    "name": "nvidia/nemotron-3-super",
                    "limit": {
                        "context": 1000000,
                        "output": 32768
                    }
                }
            }
        }
    },
    "agent": {
        "build": {
            "temperature": 1.0,
            "top_p": 0.95,
            "max_tokens": 32000
        },
        "plan": {
            "temperature": 1.0,
            "top_p": 0.95,
            "max_tokens": 32000
        }
    }
}

将 baseURL 更新为与您正在运行的后端相匹配。上面的默认端口(8000)与 vLLM 示例匹配;SGLang 和 TRT-LLM 分别使用 30000 和 8123。

要了解更多关于其他受支持的智能体框架,请查看 此资源

高级:预算控制推理

使用 reasoning_budget 为推理轨迹设置硬性令牌上限。模型将尝试在预算耗尽前的下一个换行处结束轨迹;如果在 500 个令牌内未找到换行,则会在 reasoning_budget + 500 处突然结束。

from typing import Any, Dict, List
import openai
from transformers import AutoTokenizer


class ThinkingBudgetClient:
    def __init__(self, base_url: str, api_key: str, tokenizer_name_or_path: str):
        self.tokenizer = AutoTokenizer.from_pretrained(tokenizer_name_or_path)
        self.client = openai.OpenAI(base_url=base_url, api_key=api_key)

    def chat_completion(
        self,
        model: str,
        messages: List[Dict[str, Any]],
        reasoning_budget: int = 512,
        max_tokens: int = 1024,
        **kwargs,
    ) -> Dict[str, Any]:
        assert max_tokens > reasoning_budget, (
            f"reasoning_budget must be less than max_tokens. "
            f"Got {max_tokens=} and {reasoning_budget=}"
        )

        # Step 1: generate the reasoning trace up to the budget
        response = self.client.chat.completions.create(
            model=model, messages=messages, max_tokens=reasoning_budget, **kwargs
        )
        reasoning_content = response.choices[0].message.content
        if "" not in reasoning_content:
            reasoning_content = f"{reasoning_content}.\n\n\n"

        reasoning_tokens_len = len(
            self.tokenizer.encode(reasoning_content, add_special_tokens=False)
        )
        remaining_tokens = max_tokens - reasoning_tokens_len
        assert remaining_tokens > 0, (
            f"No tokens remaining for response ({remaining_tokens=}). "
            "Increase max_tokens or lower reasoning_budget."
        )

        # Step 2: continue from the closed reasoning trace
        messages.append({"role": "assistant", "content": reasoning_content})
        prompt = self.tokenizer.apply_chat_template(
            messages, tokenize=False, continue_final_message=True
        )
        response = self.client.completions.create(
            model=model, prompt=prompt, max_tokens=remaining_tokens, **kwargs
        )

        return {
            "reasoning_content": reasoning_content.strip().strip("").strip(),
            "content": response.choices[0].text,
            "finish_reason": response.choices[0].finish_reason,
        }

示例用法(32-token 推理预算):

client = ThinkingBudgetClient(
    base_url="http://localhost:8000/v1",
    api_key="EMPTY",
    tokenizer_name_or_path="nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8",
)

result = client.chat_completion(
    model="nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8",
    messages=[
        {"role": "system", "content": "You are a helpful assistant. /think"},
        {"role": "user", "content": "What is 2+2?"},
    ],
    reasoning_budget=32,
    max_tokens=512,
    temperature=1.0,
    top_p=0.95,
)
print(result)

训练与评估数据集

训练

数据模态: 文本 总规模: 15,573,172,908,990 个 Token 数据集总数: 153 个 数据集划分: 训练 [100%]、测试 [0%]、验证 [0%] 训练数据收集时间范围: 2013 年至 2026 年 2 月 24 日 测试数据收集时间范围: 2013 年至 2026 年 2 月 24 日 验证数据收集时间范围: 2013 年至 2026 年 2 月 24 日 按数据集划分的数据收集方法: 混合:自动化、人工、合成 按数据集划分的标注方法: 混合:自动化、人工、合成

NVIDIA-Nemotron-3-Super-120B-A12B-FP8 在大规模高质量精选及合成生成数据语料库上进行预训练。其训练语言包括英语,以及其他 19 种自然语言和 43 种编程语言。我们的数据源涵盖多种文档类型,如网页、对话、文章及其他书面材料。该语料库涉及法律、数学、科学、金融等多个领域。我们还纳入了小部分问答和对齐风格数据,以提升模型准确性。该模型的训练量约为 25 万亿个 Token。

NVIDIA-Nemotron-3-Super-120B-A12B-FP8 的训练后语料库包含高质量的精选和合成生成数据。训练后阶段使用的主要语言包括英语、法语、德语、意大利语、日语、西班牙语和中文。

这些数据集(如 FinePDFs、EssentialWeb、HotpotQA、SQuAD 和 HelpSteer3)并未集体或全面地代表所有人口统计群体(及其相应比例)。例如,这些数据集在 64-99% 的样本中不包含明确提及年龄、性别或种族等人口统计类别的内容,具体比例因来源而异。在包含此类术语的子集中,基于文档的数据集(FinePDFs 和 EssentialWeb)存在代表性偏差,例如“男性”的提及次数多于“女性”,“白人”是种族标识符中出现频率最高的(占种族提及的 43-44%)。为减轻这些不平衡,我们建议考虑采用偏差审计、使用人口统计平衡的数据集进行微调以及反事实数据增强等缓解策略,以符合期望的模型行为。本评估在每个数据集上使用了 3,000 个样本的子集,这被确定为最大化嵌入器准确性的最佳阈值。

在训练后阶段,我们通过从强大的教师模型和智能体系统中提取轨迹、解决方案和翻译来生成合成数据,这些数据通常基于真实任务或文档,并经过严格的质量过滤。对于数学、代码和科学领域,我们从精选的问题集出发,使用开源许可模型(如 GPT-OSS-120B)生成逐步推理轨迹、候选解决方案、最佳 n 选择轨迹以及经过验证的 CUDA 内核。对于长上下文和科学领域,我们通过从长文档中检索段落、生成多选题/开放式问答(MCQ/OpenQA)问题与答案,并将其改写为多种提示/响应格式以确保多样性,从而构建合成问答和推理数据。在所有流程中,我们都叠加了自动化验证(编译器、数值检查、语言识别),以确保数据质量。

针对所有领域,我们应用统一的数据过滤流程,确保只有高质量、符合许可要求且可验证的样本用于训练后阶段。我们首先使用结构检查丢弃格式错误的示例(例如,当存在工具调用时缺少工具定义)。然后,我们严格过滤表现出病态重复的推理轨迹,例如在滑动窗口内或整个轨迹中重复出现的 n 元语法,我们发现这是推理格式错误或质量低下的强烈指标。最后,基于对合成生成数据集的内部审计,我们观察到一些教师模型偶尔会生成隐含特定政治实体立场或宣扬民族主义叙事的推理轨迹和最终响应。为缓解此问题,我们应用基于关键词和正则表达式的定向过滤器,并移除所有匹配此类行为的轨迹。

除模型外,我们还发布了本节所述的最终预训练和训练后数据。为便于分析,提供了一个无需权限访问的样本集。对于所有其余的代码、数学和多语言数据,需要权限访问和审批,且该数据集在模型训练用途方面采用宽松许可。

有关数据集和合成数据生成方法的更多详细信息,请参见技术报告 NVIDIA Nemotron 3 Super。

点击查看用于训练的完整数据集目录

基础预训练语料库(Nemotron 3 基础版)

该模型的基础训练基于 Nemotron-3-Nano 语料库,包括以下集合:

数据集集合Token 数量描述
Nemotron-CC-v2 和 v2.19.13T从 Common Crawl 筛选出的大规模英语网络数据集合,包含 2.5T 以上新的原生、翻译及合成改写内容的 Token。
Nemotron-CC-Code-v1427.9B使用 Lynx + LLM 流程从 Common Crawl 提取的高质量代码 Token,以保留结构和方程式。
Nemotron-Pretraining-Code-v1 和 v21.09T经过多阶段过滤、去重的精选 GitHub 代码参考,以及大规模合成代码数据。
Nemotron-CC-Math-v1133.3B保留 LaTeX 格式和数学结构的高质量数学预训练数据集。
Nemotron-Pretraining-Specialized-v1336.4B针对 STEM 推理和科学编码等专业领域的合成数据集。

公开数据集

数据集收集周期
GSM8K2025年4月23日
CC-NEWS2025年4月23日
Common Crawl2025年4月23日
Wikimedia2025年4月23日
Bespoke-Stratos-17k2025年4月23日
tigerbot-kaggle-leetcodesolutions-en-2k2025年4月23日
glaive-function-calling-v22025年4月23日
APIGen Function-Calling2025年4月23日
LMSYS-Chat-1M2025年4月23日
Open Textbook Library - CC BY-SA & GNU subset 和 OpenStax - CC BY-SA subset2025年4月23日
Advanced Reasoning Benchmark、tigerbot-kaggle-leetcodesolutions-en-2k、PRM800K 以及 SciBench2025年4月23日
FineWeb-22025年4月23日
Court Listener历史下载
peS2o历史下载
OpenWebMath历史下载
BioRxiv历史下载
PMC Open Access Subset历史下载
OpenWebText2历史下载
Stack Exchange Data Dump历史下载
PubMed Abstracts历史下载
NIH ExPorter历史下载
arXiv历史下载
BigScience Workshop Datasets历史下载
Reddit Dataset历史下载
SEC's Electronic Data Gathering, Analysis, and Retrieval (EDGAR)历史下载
Advanced Mathematical Problem Solving历史下载
MathPile历史下载
NuminaMath CoT历史下载
PMC Article历史下载
FLAN历史下载
Advanced Reasoning Benchmark历史下载
SciBench历史下载
WikiTableQuestions历史下载
FinQA历史下载
Riddles历史下载
Problems in Elementary Mathematics for Home Study历史下载
MedMCQA历史下载
Cosmos QA历史下载
MCTest历史下载
AI2's Reasoning Challenge历史下载
OpenBookQA历史下载
MMLU Auxiliary Train历史下载
social-chemestry-101历史下载
Moral Stories历史下载
The Common Pile v0.1历史下载
FineMath历史下载
MegaMath历史下载
MultiverseMathHard2025年10月2日
News Commentary2025年10月2日
Essential-Web2025年10月2日
finepdfs2025年10月2日
HotpotQA2025年10月2日
SQuAD2.02025年10月2日
NLTK Words Lists2025年10月2日
来自 Nemotron-Cascade-RL-SWE 的竞技编程强化学习数据2026年1月10日
NL2Bash2026年1月10日
SWE-Gym2026年1月10日
R2E-Gym-Subset2026年1月10日
SWE-bench_Verified2026年1月10日

由 NVIDIA 从在线来源抓取和搜集

英文 Common Crawl 数据从 Common Crawl 基金会下载(有关其抓取的详细信息,请参见其常见问题解答),包括快照 CC-MAIN-2013-20 至 CC-MAIN-2025-13。随后,按照 Nemotron-CC 论文中描述的各种方式对数据进行了去重和过滤。此外,我们从以下三个 Common Crawl 快照中提取了十五种语言的数据:CC-MAIN-2024-51、CC-MAIN-2025-08、CC-MAIN-2025-18。这十五种语言包括阿拉伯语、中文、丹麦语、荷兰语、法语、德语、意大利语、日语、韩语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语和泰语。由于我们没有可靠的基于多语言模型的质量分类器,因此我们仅应用了启发式过滤——类似于我们在 Nemotron-CC 流程中对较低质量英文数据所做的处理,但对某些效果不佳的语言有选择地移除了部分过滤器。去重操作与 Nemotron-CC 的方式相同。

GitHub 抓取是使用 GitHub REST API 和 Amazon S3 API 收集的。每次抓取均按照其各自来源(GitHub 或 S3)设定的速率限制进行操作。我们收集原始源代码,随后移除任何不包含在我们的宽松许可证集中的许可证(有关其他详细信息,请参阅技术报告)。

数据集模态数据集大小收集周期收集机构
English Common Crawl文本3.36T2025年4月8日NVIDIA Advanced Deep Learning Research
English Common Crawl 1.1文本未披露2025年10月2日NVIDIA Advanced Deep Learning Research
Multilingual Common Crawl文本812.7B2025年5月1日NVIDIA Advanced Deep Learning Research
GitHub Crawl文本747.4B2025年4月29日NVIDIA Advanced Deep Learning Research

第三方私有非公开可访问数据集

数据集使用的模型
全球法规未知
TAUS 翻译记忆库未知
Scale HLE未知
HackerRank 编程未知
搜索用强化学习数据Gemini 3;GPT-5 *
  • 仅用于提示生成的模型

NVIDIA 的私有非公开可访问数据集

数据集使用的模型
简易扫雷-
简易数独-
多工具打字机高级版-
新闻评论机器翻译和 TAUS 翻译记忆库-
STEM 机器翻译Qwen2.5-14B-Instruct
来自 Nemotron Cascade 的竞技编程强化学习数据-
长上下文强化学习-
用于补丁生成的单步 SWE 强化学习-
OpenHands SWE-

NVIDIA 来源的合成数据集

数据集模态数据集大小种子数据集用于生成的模型
Nemotron-Pretraining-Formal-Logic文本128,022,285Nemotron PersonasQwen3-235B-A22B-Thinking-2507
Nemotron-Pretraining-Economics文本73,374,154-Qwen3-235B-A22B-Thinking-2507
Nemotron-Pretraining-Multiple-Choice文本1,609,214,470MMLU Auxiliary TrainDeepSeek-V3; Qwen3-235B-A22B
Nemotron-Pretraining-Code-Concepts文本7,294,510,156-gpt-oss-20b; gpt-oss-120b
Nemotron-Pretraining-Unconditional-Algorithmic文本196,492,899-gpt-oss-120b; Qwen3-235B-A22B
来自 DeepSeek-V3 和 Qwen3-235B-A22B 的合成任务文本6.7BInto the Unknown 的训练拆分;AI2 ARC(AI2 推理挑战);BLiMP(语言最小对基准);CommonSenseQA;GLUE;HeadQA;Hendrycks Ethics;Memo Trap;modus-tollens;NeQA;pattern-matching-suppression;mastermind_24_mcq_random;mastermind_24_mcq_close;quote-repetition;redefine-math;Repetitive Algebra;sig-figs;MMLU-Pro;MC-TACO;MedConceptsQA;MMLU_dataset;OpenbooksQA;PIQA(物理交互问答);SocialIQA;SuperGLUE;tinyAI2_arc;tinyMMLU;tinyWinogrande;TruthfulQA;WebQuestions;Winogrande;GPQA;MBPPDeepSeek v3; Qwen3-235B-A22B
来自 DeepSeek-R1 的合成解题技巧文本40B解题技巧; 美国数学竞赛 8; 美国数学竞赛 10;DeepSeek-R1
来自 Mixtral-8x22B-v0.1 的合成道德故事和社会化学文本327Msocial-chemestry-101; Moral StoriesMixtral-8x22B-v0.1
以 OpenStax 为种子,来自 DeepSeek-V3、Mixtral-8x22B-v0.1 和 Qwen2.5-72B 的合成社会科学文本83.6MOpenStax - CC BY-SA 子集DeepSeek-V3; Mixtral-8x22B-v0.1; Qwen2.5-72B
以 OpenStax 为种子,来自 DeepSeek-V3、Mixtral-8x22B-v0.1 和 Qwen2.5-72B 的合成健康科学文本9.7MOpenStax - CC BY-SA 子集DeepSeek-V3; Mixtral-8x22B-v0.1; Qwen2.5-72B
以 OpenStax、开放教科书图书馆和 GSM8K 为种子,来自 DeepSeek-R1、DeepSeek-V3、DeepSeek-V3-0324 和 Qwen2.5-72B 的合成 STEM文本175MOpenStax - CC BY-SA 子集; GSM8K; 开放教科书图书馆 - CC BY-SA 和 GNU 子集DeepSeek-R1, DeepSeek-V3; DeepSeek-V3-0324; Qwen2.5-72B
Nemotron-PrismMath文本4.6BBig-Math-RL-Verified; OpenR1-Math-220kQwen2.5-0.5B-instruct, Qwen2.5-72B-Instruct; DeepSeek-R1-Distill-Qwen-32B
来自 Qwen2.5-72B-Instruct 的论文和许可书籍的合成问答数据文本350MarXiv; 美国国立卫生研究院 ExPorter; BioRxiv; PMC Article; USPTO Backgrounds; peS2o; 全球法规; CORE; PG-19; DOAB CC BY & CC BY-SA 子集; NDLTDQwen2.5-72B-Instruct
来自 phi-4 的刷新版 Nemotron-MIND文本73BCommon Crawlphi-4
Nemotron-CC-Math-4plus文本52.3BCommon Crawlphi-4
Nemotron-CC-Math-3文本80.9BCommon Crawlphi-4
以 AQUA-RAT、LogiQA 和 AR-LSAT 为种子,来自 DeepSeek-V3 和 DeepSeek-V3-0324 的合成 AGIEval文本4.0BAQUA-RAT; LogiQA; AR-LSATDeepSeek-V3; DeepSeek-V3-0324
以 AQUA-RAT、LogiQA 和 AR-LSAT 为种子,来自 Qwen3-30B-A3B 的合成 AGIEval文本4.2BAQUA-RAT; LogiQA; AR-LSATQwen3-30B-A3B
来自 Qwen2.5-32B-Instruct、Qwen2.5-Math-72B、Qwen2.5-Math-7B 和 Qwen2.5-72B-Instruct 的合成解题技巧文本解题技巧; 美国数学竞赛 8; 美国数学竞赛 10; GSM8K; PRM800KQwen2.5-32B-Instruct; Qwen2.5-Math-72B; Qwen2.5-Math-7B; Qwen2.5-72B-Instruct
来自 DeepSeek-R1 的合成 MMLU 辅助训练文本0.5BMMLU Auxiliary TrainDeepSeek-R1
来自 Qwen2.5-72B-Instruct 的论文和许可书籍的合成长上下文持续训练后数据文本arXiv; 美国国立卫生研究院 ExPorter; BioRxiv; PMC Article; USPTO Backgrounds; peS2o; 全球法规; CORE; PG-19; DOAB CC BY & CC BY-SA 子集; NDLTDQwen2.5-72B-Instruct
来自 Qwen3-30B-A3B 和 Mistral-Nemo-12B-Instruct 的合成 Common Crawl文本415.8BCommon CrawlQwen3-30B-A3B; Mistral-NeMo-12B-Instruct
来自 Qwen3-30B-A3B 的 Common Crawl 合成多语言数据文本Common CrawlQwen3-30B-A3B
来自 Qwen3-30B-A3B 的 Wikimedia 合成多语言数据文本WikimediaQwen3-30B-A3B
来自 Nemotron-4-340B-Instruct 的 Wikimedia 合成数学数据文本-Nemotron-4-340B-Instruct
来自 phi-4 的合成 Common Crawl 代码文本427.9BCommon Crawlphi-4
来自 Qwen3-235B-A22B 的合成科学编码文本1.2BWikimediaQwen3-235B-A22B
工具调用数据文本26.2BQwen3-235B-A22B-2507; gpt-oss-120b
来自 QwQ-32B 的合成 Essential-Web文本28.1BEssential-WebQwQ-32B
翻译的合成抓取数据文本389.9BCommon CrawlQwen3-30B-A3B
翻译的合成维基百科文本7.9BWikimediaQwen3-30B-A3B
来自 gpt-oss-120b 和 Qwen2.5-32B-Instruct 的合成解题技巧文本未披露解题技巧; 美国数学竞赛 8; 美国数学竞赛 10gpt-oss-120b; Qwen2.5-32B-Instruct
来自 gpt-oss-120b 和 Qwen2.5-32B-Instruct 的合成 Stack Exchange文本未披露Stack Exchangegpt-oss-120b; Qwen2.5-32B-Instruct
来自 DeepSeek-R1-0528 的合成 OpenCodeReasoning文本未披露OpenCodeReasoningDeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成 HackerRank 编程文本未披露HackerRank 编程数据集DeepSeek-R1-0528
来自 Qwen3-Coder-480B-A35B-Instruct 的合成 SWE-Gym文本未披露SWE-GymQwen3-Coder-480B-A35B-Instruct
来自 gpt-oss-120b、Qwen2.5-32B-Instruct 和 Goedel-Prover-V2-32B 的合成解题技巧和 Stack Exchange文本未披露解题技巧; 美国数学竞赛 8; 美国数学竞赛 10; Stack Exchangegpt-oss-120b; Qwen2.5-32B-Instruct; Goedel-Prover-V2-32B
来自 DeepSeek-R1、DeepSeek-R1-0528、Qwen2.5-32B-Instruct 和 Qwen3-235B-A22B 的合成多语言科学和代码数据,使用 Qwen2.5-32B-Instruct 和 Qwen2.5-14B-Instruct 翻译文本未披露Stack Exchange; SCP-116K; LIMO; TACO; 代码竞赛; CodeforcesDeepSeek-R1; DeepSeek-R1-0528; Qwen2.5-32B-Instruct; Qwen3-235B-A22B;
来自 DeepSeek-R1-0528、gpt-oss-120b 和 Mixtral-8x7B-v0.1 的合成安全数据文本未披露Nemotron 内容安全数据集 V2; Gretel 合成安全对齐数据集; RedTeam-2K; 恶意任务; Nemotron-Personas-USADeepSeek-R1-0528; gpt-oss-120b; Mixtral-8x7B-v0.1
来自 Qwen3-235B-A22B-Instruct-2507 和 gpt-oss-120b 的合成 STEM文本未披露arXiv; 美国国立卫生研究院 ExPorter; BioRxiv; PMC Article; USPTO Backgrounds; peS2o; 全球法规; CORE; PG-19; DOAB CC BY & CC BY-SA 子集; NDLTDQwen3-235B-A22B-Instruct-2507; gpt-oss-120b
来自 DeepSeek-R1-0528 的合成 KernelBook文本未披露KernelBookDeepSeek-R1-0528
来自 Qwen3-235B-A22B-Thinking-2507 和 Qwen3-Next-80B-A3B-Thinking 的合成工具调用文本未披露ToolBench; glaive-function-calling-v2; APIGen Function-Calling; Nemotron-Personas-USAQwen3-235B-A22B-Thinking-2507; Qwen3-Next-80B-A3B-Thinking
来自 gpt-oss-120b、Mixtral-8x22B-Instruct-v0.1、Qwen3-235B-A22B-Instruct-2507 和 Qwen3-235B-A22B-Thinking-2507 的合成聊天文本未披露C4; LMSYS-Chat-1M; ShareGPT; GSM8K; PRM800K; FinQA; WikiTableQuestions; Riddles; glaive-function-calling-v2; SciBench; tigerbot-kaggle-leetcodesolutions-en-2k; OpenBookQA; Advanced Reasoning Benchmark; Software Heritage; 可汗学院数学关键词; WildChat-1M; Nemotron-Personas-USAgpt-oss-120b; Mixtral-8x22B-Instruct-v0.1; Qwen3-235B-A22B-Instruct-2507; Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-235B-A22B-Instruct-2507 的合成长上下文文本未披露CORE; PG-19; DOAB CC BY & CC BY-SA 子集; NDLTDQwen3-235B-A22B-Instruct-2507
来自 gpt-oss-120b、DeepSeek-R1-0528、Qwen3-32B 和 Qwen3-235B-A22B-Thinking-2507 的合成工具使用交互式代理文本未披露NVIDIA 内部gpt-oss-120b; DeepSeek-R1-0528; Qwen3-32B; 和 Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-235B-A22B-Thinking-2507 的合成 STEM文本未披露ICHO-IPH0; Physics Big; Scale HLE; OpenMathReasoning; OpenCodeReasoningQwen3-235B-A22B-Thinking-2507
来自 Qwen3-Coder-480B-A35B-Instruct 和 Kimi-K2-Thinking 的合成 DocFinQA 和 SWE-smith文本未披露DocFinQA; SWE-smithQwen3-Coder-480B-A35B-Instruct; Kimi-K2-Thinking
来自 gpt-oss-120b 和 Qwen2.5-32B-Instruct 的合成数学数据文本未公开-gpt-oss-120b; Qwen2.5-32B-Instruct
来自 gpt-oss-120b 的合成 Essential-Web 数据文本未公开Essential-Webgpt-oss-120b
来自 gpt-oss-120b 的合成 Scale HLE 数据文本未公开Scale HLEgpt-oss-120b
来自 gpt-oss-120b 的合成 CDQuestions 数据文本未公开CDQuestionsgpt-oss-120b
来自 gpt-oss-120b 的合成 Stack Exchange 数据文本未公开Stack Exchangegpt-oss-120b
来自 gpt-oss-120b 和 Qwen2.5-32B-Instruct 的合成 GPQA 数据文本未公开Stack Exchangegpt-oss-120b; Qwen2.5-32B-Instruct
来自 gpt-oss-120b 的合成 Vedantu 数据文本未公开Vedantugpt-oss-120b
来自 Qwen3-Coder-480B-A35B-Instruct 的合成 SWE-Gym 和 R2E-Gym-Subset 数据文本未公开SWE-Gym; R2E-Gym-SubsetQwen3-Coder-480B-A35B-Instruct
来自 Qwen3-Coder-480B-A35B-Instruct 的合成 SWE-Gym 数据文本未公开SWE-GymQwen3-Coder-480B-A35B-Instruct
来自 DeepSeek-R1-0528 的合成 SWE-Gym 和 R2E-Gym-Subset 数据文本未公开SWE-Gym; R2E-Gym-SubsetDeepSeek-R1-0528
来自 gpt-oss-120b、Qwen3-235B-A22B-Instruct-2507 和 Qwen3-235B-A22B-Thinking-2507 的合成 HelpSteer、LMSYS-Chat-1M 和 Nemotron-Personas-USA 数据文本未公开HelpSteer2; HelpSteer3; LMSYS-Chat-1M; Nemotron-Personas-USAgpt-oss-120b; Qwen3-235B-A22B-Instruct-2507; Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-30B-A3B-Instruct-2507、Qwen3-30B-A3B-Thinking-2507、Qwen3-235B-A22B-Instruct-2507 和 Qwen3-235B-A22B-Thinking-2507 的合成结构化输出数据文本未公开-Qwen3-30B-A3B-Instruct-2507; Qwen3-30B-A3B-Thinking-2507; Qwen3-235B-A22B-Instruct-2507; Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-235B-A22B 和 DeepSeek-R1-0528 的合成搜索 STEM MCQ 数据文本未公开-Qwen3-235B-A22B; DeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成搜索 STEM OPENQ 数据文本未公开-DeepSeek-R1-0528
来自 Qwen2.5-32B-Instruct 和 DeepSeek-R1-0528 的合成 OpenSTEM 数据文本未公开-Qwen2.5-32B-Instruct; DeepSeek-R1-0528
来自 Qwen2.5-32B-Instruct 和 DeepSeek-R1-0528 的合成 MCQ 数据文本未公开-Qwen2.5-32B-Instruct; DeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成 MCQ10 数据文本未公开-DeepSeek-R1-0528
来自 Qwen3-235B-A22B、DeepSeek-R1-0528 和 Qwen3-235B-A22B-Instruct-2507 的合成 MCQ4 数据文本未公开-Qwen3-235B-A22B; DeepSeek-R1-0528; Qwen3-235B-A22B-Instruct-2507
来自 gpt-oss-120b 和 Qwen2.5-32B-Instruct 的合成 OpenMathReasoning 数据文本未公开OpenMathReasoninggpt-oss-120b; Qwen2.5-32B-Instruct
来自 DeepSeek-R1-0528 的合成离线搜索 MCQA HLE 数据文本未公开-DeepSeek-R1-0528
来自 Qwen3-235B-A22B 和 DeepSeek-R1-0528 的合成离线搜索 MCQA GPQA 数据文本未公开-Qwen3-235B-A22B; DeepSeek-R1-0528
来自 QwQ-32B、Qwen3-30B-A3B、Qwen3-235B-A22B、Qwen3-235B-A22B-Instruct-2507、Mistral-Small-3.1-24B-Instruct-2503、Mistral-Small-3.2-24B-Instruct-2506、MiniMax-M1-80k、MiniMax-M1-40k、Kimi-K2-Instruct、DeepSeek-V3-0324、DeepSeek-R1-0528 的合成人类偏好数据文本未公开-QwQ-32B; Qwen3-30B-A3B; Qwen3-235B-A22B; Qwen3-235B-A22B-Instruct-2507; Mistral-Small-3.1-24B-Instruct-2503; Mistral-Small-3.2-24B-Instruct-2506; MiniMax-M1-80k; MiniMax-M1-40k; Kimi-K2-Instruct; DeepSeek-V3-0324; DeepSeek-R1-0528
来自 DeepSeek-R1、gemma-2-2b-it、gemma-3-27b-it、gpt-oss-20b、gpt-oss-120b、Mistral-7B-Instruct-v0.3、Mixtral-8x22B-Instruct-v0.1、Nemotron-4-340B-Instruct、NVIDIA-Nemotron-Nano-9B-v2、Phi-4-mini-instruct、Phi-3-small-8k-instruct、Phi-3-medium-4k-instruct、Qwen3-235B-A22B、QwQ-32B 的合成 WildChat-1M 和 arena-human-preference-140k 数据文本未公开WildChat-1M; arena-human-preference-140kDeepSeek-R1; gemma-2-2b-it; gemma-3-27b-it; gpt-oss-20b; gpt-oss-120b; Mistral-7B-Instruct-v0.3; Mixtral-8x22B-Instruct-v0.1; Nemotron-4-340B-Instruct; NVIDIA-Nemotron-Nano-9B-v2; Phi-4-mini-instruct; Phi-3-small-8k-instruct; Phi-3-medium-4k-instruct; Qwen3-235B-A22B; QwQ-32B
来自 DeepSeek-R1-0528、gpt-oss-120b、DeepSeek-R1-Distill-Qwen-7B 和 Mixtral-8x7B-v0.1 的合成安全数据文本未公开Nemotron Content Safety Dataset V2; Gretel Synthetic Safety Alignment Dataset; RedTeam-2K; Malicious Tasks;DeepSeek-R1-0528; gpt-oss-120b; DeepSeek-R1-Distill-Qwen-7B; Qwen3-30B-A3B-Thinking-2507; Qwen3-235B-A22B-Instruct-2507; Mixtral-8x7B-v0.1
来自 Qwen3-32B 的合成代码数据文本未公开English Common Crawl; English Common Crawl 1.1Qwen3-32B
来自 DeepSeek-R1 的合成 OpenCodeReasoning 数据文本未公开OpenCodeReasoningDeepSeek-R1
来自 DeepSeek-R1-0528 的合成 LIMO 数据文本未公开LIMODeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成 SCP 数据文本未公开SCP-116KDeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成 Stack Exchange 数据文本未公开Stack ExchangeDeepSeek-R1-0528
来自 Qwen3-30B-A3B 的合成 Common Crawl 数据文本未公开Common CrawlQwen3-30B-A3B
来自 Qwen3-30B-A3B 的合成 Wikipedia 数据文本未公开WikimediaQwen3-30B-A3B
来自 Qwen3-30B-A3B 和 Qwen3-235B-A22B-Thinking-2507 的合成 Essential-Web 数据文本未公开Essential-WebQwen3-30B-A3B; Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-30B-A3B、Qwen3-235B-A22B、phi-4 的合成教科书数学数据文本未公开Common Crawl; FineMathQwen3-30B-A3B; Qwen3-235B-A22B; phi-4
来自 DeepSeek-R1 和 DeepSeek-R1-0528 的合成数学与代码数据文本未公开Magicoder-Evol-Instruct-110K; opc-sft-stage2; TACO; OpenCodeReasoning; OpenMathReasoning; NuminaMath CoTDeepSeek-R1; DeepSeek-R1-0528
来自 gpt-oss-120b 和 Qwen3-8B 的合成 Nemotron-Personas-USA 数据文本未公开Nemotron-Personas-USAgpt-oss-120b; Qwen3-8B
合成 Text-To-SQL 数据文本未公开-gpt-oss-120b
合成 Agentless SWE 数据文本未公开SWE-Bench-Train; SWE-Fixer-Train; SWE-reBench; SWE-smithDeepSeek-R1-0528
合成搜索图游走数据文本未公开-MiniMax-M2
合成 CUDA 100k 数据文本未公开KernelBook; HuggingFace Transformers; FlashInferDeepSeek-R1-0528; gpt-oss-120b
合成安全数据文本未公开Nemotron Content Safety Dataset V2; Gretel Synthetic Safety Alignment Dataset; RedTeam-2K; HarmfulTasksgpt-oss-120b; NVIDIA-Nemotron-Nano-9B-v2; gemma-3-4b-it
合成智能体多样化领域数据文本未公开-DeepSeek-R1-0528; Qwen3-235B-A22B-Thinking-2507; Qwen3-235B-A22B-Instruct-2507; Qwen3-32B; gpt-oss-120b; DeepSeek-V3.2
合成 SWE 未验证数据文本未公开-gpt-oss-120b; Qwen3-Coder-480B-A35B-Instruct; GLM-4.7-Flash
来自 Deepseek-V3 的合成 Scale HLE 数据文本未公开Scale HLEDeepSeek-V3-0324
来自 Deepseek-V3 的合成 CDQuestions 数据文本未公开CDQuestionsDeepSeek-V3-0324
来自 Deepseek-V3 的合成 Stack Exchange 数据文本未公开Stack ExchangeDeepSeek-V3-0324
来自 Deepseek-V3 的合成 GPQA 数据文本未公开Stack ExchangeDeepSeek-V3-0324
来自 Deepseek-V3 的合成 Vedantu 数据文本未公开VedantuDeepSeek-V3-0324
用于 RL 的合成工具调用模式数据文本未公开ToolBench; glaive-function-calling-v2; APIGen Function-Calling; Nemotron-Personas-USAQwen3-235B-A22B-Thinking-2507; Qwen3-Next-80B-A3B-Thinking
用于搜索的合成数据文本未公开WikimediaMiniMax-M2
用于 RL 的合成指令跟随数据文本未公开-NVIDIA-Nemotron-Nano-9B-v2; Qwen3-235B-A22B-Thinking-2507
合成对话式智能体工具使用 RL 数据文本未公开-DeepSeek-V3.2; DeepSeek-R1-0528; Qwen3-235B-A22B-Thinking-2507; Qwen3-32B; gpt-oss-120b; Qwen3-235B-A22B-Instruct-2507
合成终端枢纽 RL 数据文本未公开SWE-smith; Nemotron-Cascade-RL-SWE; Vendor suppliedDeepSeek-V3.2; Qwen3-Coder-480B-A35B-Instruct; Kimi-K2.5; Qwen3-235B-A22B-Instruct-2507

训练后语言分布

在我们的训练后方案中,除英语外,我们还重点关注了9种主要语言:法语、德语、意大利语、日语、西班牙语和中文。

这些语言以多语言推理和翻译任务的形式呈现。

下表展示了我们针对6种语言和5个翻译语言对的样本分布情况。

语言规模
English13.48M
Italian53k
German53k
Spanish53k
French53k
Japanese53k
Chinese53k
English <-> Italian43.2k
English <-> German43.2k
English <-> Spanish43.2k
English <-> French43.2k
English <-> Japanese43.2k

评估数据集

  • 按数据集划分的数据收集方法:混合:人工、合成
  • 按数据集划分的标注方法:混合:自动化、人工、合成

推理

  • 加速引擎:PyTorch
  • 测试硬件:
    • NVIDIA Hopper
      • 1-8x H100
      • 1-8x H200
    • NVIDIA Grace Blackwell
      • GB200

伦理考量

NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持各类 AI 应用的开发。当开发者按照我们的服务条款下载或使用本模型时,应与内部模型团队合作,确保该模型满足相关行业和用例的要求,并应对意外的产品滥用问题。

我们建议不要规避模型中包含的任何安全防护措施,除非为您的用例设置了实质上类似的防护措施。更多详情:安全 和 可解释性 子卡片。

有关此模型伦理考量的更多详细信息,请参阅 Model Card++ 的 偏见 和 隐私 子卡片。

如发现模型质量、风险、安全漏洞或 NVIDIA AI 相关问题,请通过 此处 报告。

引用

@misc{nvidia_nemotron_3_2025,
  title  = {NVIDIA Nemotron 3: Efficient and Open Intelligence},
  author = {{NVIDIA}},
  year   = {2025},
  url    = {https://arxiv.org/abs/2512.20856},
  note   = {White Paper}
}