HuggingFace镜像/NVIDIA-Nemotron-3-Nano-4B-BF16
模型介绍文件和版本分析
下载使用量0
Pre-Training Datasets Post-Training Datasets
Homepage Discord
License

NVIDIA-Nemotron-3-Nano-4B-BF16

模型开发者: NVIDIA Corporation

模型日期:

2025年12月 - 2026年1月

数据时效性:

2024年9月

预训练数据的截止日期为2024年9月。

模型概述

NVIDIA-Nemotron-3-Nano-4B-BF16是由NVIDIA从头开始训练的小型语言模型(SLM),设计为适用于推理和非推理任务的统一模型。它通过首先生成推理轨迹,然后得出最终响应来回应用户的查询和任务。模型的推理能力可通过系统提示进行控制。如果用户希望模型直接提供最终答案而不输出中间推理轨迹,可以进行相应配置,尽管对于需要推理的较难提示,其准确性会略有下降。相反,允许模型先生成推理轨迹通常会为查询和任务带来更高质量的最终解决方案。

该模型是使用Nemotron Elastic框架从NVIDIA-Nemotron-Nano-9B-v2压缩而来。关于父模型NVIDIA-Nemotron-Nano-9B-v2的详细信息,请参见(Nemotron-H技术报告)。该模型采用混合架构,主要由Mamba-2和MLP层组成,并结合了仅四个Attention层。

支持的语言包括:英语。借助Qwen进行了改进。

此模型已准备好投入商业使用。

许可协议/使用条款

管辖条款:本模型的使用受 NVIDIA Nemotron Open Model License 管辖。

评估结果:

我们在 Reasoning-off(推理关闭)模式下通过以下基准对模型进行了评估

基准测试NVIDIA-Nemotron-3-Nano-4B-BF16
BFCL v361.1
IFBench-Prompt43.2
IFBench-Instruction44.2
Orak22.9
IFEval-Prompt82.8
IFEval-Instruction88
HaluEval62.2
RULER (128k)91.1
Tau2-Airline28.0
Tau2-Retail34.8
Tau2-Telecom24.9
EQ-Bench363.2

我们还在 Reasoning-On(推理开启)模式下通过以下基准对模型进行了评估。

基准测试NVIDIA-Nemotron-3-Nano-4B-BF16
AIME2578.5
MATH50095.4
GPQA53.2
LCB51.8
BFCL v361.1
IFEVAL-Prompt87.9
IFEVAL-Instruction92
Tau2-Airline33.3
Tau2-Retail39.8
Tau2-Telecom33

所有评估均使用 NeMo-Skills 和 Orak 进行。对于 Orak,我们在三个游戏(《超级马里奥》《暗黑地牢》和《星露谷物语》)上进行了评估。

部署地区:全球

用例

NVIDIA-Nemotron-3-Nano-4B 是一款边缘就绪型小型语言模型,适用于边缘平台(Jetson Thor、GeForce RTX、DGX Spark)中的智能体 AI(Agentic AI)。其主要目标用途包括 AI 游戏 NPC(队友/同伴)、本地语音助手(适用于设备、应用程序和游戏)以及物联网自动化。该模型适用于英语和编程语言。

发布日期:2026年3月16日

Huggingface 2026年3月16日通过 https://huggingface.co/

参考文献

  • NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model
  • Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs
  • NVIDIA Nemotron 3: Efficient and Open Intelligence
  • Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning
  • Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

模型架构

  • 架构类型:Mamba2-Transformer 混合架构
  • 网络架构:Nemotron-Hybrid
    • 该模型由 nvidia/NVIDIA-Nemotron-Nano-9B-v2 压缩而来
    • 模型参数数量:3.97 x 10^9

输入

  • 输入类型:文本
  • 输入格式:字符串
  • 输入参数:一维(1D):序列
  • 其他输入相关属性:上下文长度可达 262K。支持的语言包括英语。

输出

  • 输出类型:文本
  • 输出格式:字符串
  • 输出参数:一维(1D):序列
  • 其他输出相关属性:序列长度可达 262K

我们的模型经过设计和优化,可在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件(如 GPU 核心)和软件框架(如 CUDA 库),与纯 CPU 解决方案相比,该模型实现了更快的训练和推理时间。

软件集成

  • 运行时引擎:NeMo 25.07
  • 支持的硬件微架构兼容性:NVIDIA A10G、NVIDIA H100-80GB、NVIDIA A100、GeForce RTX
  • 操作系统:Linux

将基础模型和微调模型集成到 AI 系统中,需要使用特定用例的数据进行额外测试,以确保安全有效的部署。遵循 V 模型方法论,在单元和系统层面进行迭代测试和验证,对于在部署前降低风险、满足技术和功能要求以及确保符合安全和道德标准至关重要。

使用 Transformers 调用

以下代码片段展示了如何使用 Huggingface Transformers(在 4.48.3 版本上测试)调用此模型。

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# Load tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("nvidia/NVIDIA-Nemotron-3-Nano-4B")
model = AutoModelForCausalLM.from_pretrained(
    "nvidia/NVIDIA-Nemotron-3-Nano-4B",
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)
messages = [
    {"role": "system", "content": <system_prompt>},
    {"role": "user", "content": "Write a haiku about GPUs"},
]
tokenized_chat = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

outputs = model.generate(
    tokenized_chat,
    max_new_tokens=32,
    eos_token_id=tokenizer.eos_token_id
)
print(tokenizer.decode(outputs[0]))

对于推理任务,建议设置 temperature=1.0 和 top_p=0.95;而对于工具调用,建议设置 temperature=0.6 和 top_p=0.95。

如果您想关闭推理功能,请在 apply_chat_template() 中添加 enable_thinking=False。默认情况下,enable_thinking 设为 True。

messages = [
    {"role": "system", "content": <system_prompt>},
    {"role": "user", "content": "Write a haiku about GPUs"},
]
tokenized_chat = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    enable_thinking=False,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

outputs = model.generate(
    tokenized_chat,
    max_new_tokens=32,
    eos_token_id=tokenizer.eos_token_id
)
print(tokenizer.decode(outputs[0]))

使用 vLLM 运行

此模型需要 vllm>=0.15.1。如果您使用的是 Jetson Thor 或 DGX Spark,请使用 此 vllm 容器。

pip install -U "vllm>=0.15.1"

从 Hugging Face 仓库下载自定义解析器。

wget https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-4B-BF16/resolve/main/nano_v3_reasoning_parser.py

使用自定义解析器启动 vLLM 服务器。

vllm serve nvidia/NVIDIA-Nemotron-3-Nano-4B-BF16 \
  --served-model-name nemotron3-nano-4B-BF16\
  --max-num-seqs 8 \
  --tensor-parallel-size 1 \
  --max-model-len 262144 \
  --port 8000 \
  --trust-remote-code \
  --mamba_ssm_cache_dtype float32 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder \
  --reasoning-parser-plugin nano_v3_reasoning_parser.py \
  --reasoning-parser nano_v3

使用 python 客户端访问托管的 API。


from openai import OpenAI
import asyncio
from openai import AsyncOpenAI

# NOTE: Streaming is preferred for better performance and resource efficiency.
# It allows you to start processing responses as they arrive, reducing latency.

# Synchronous example (non-streaming)
client = OpenAI(
    api_key="your-nvapikey",
    base_url="base-url"
)

response = client.chat.completions.create(
    model="nemotron3-nano-4B-BF16",
    messages=[
        {
            "role": "user",
            "content": "Hello!"
        }
    ],
    temperature=0.7,
    max_tokens=256,
    top_p=0.7,
    stream=false
)

print(response.choices[0].message.content)

与 TRT-LLM 配合使用

使用 TRT-LLM 启动模型

docker run -v /home/root/.cache/huggingface/:/root/.cache/huggingface/ --rm --ulimit memlock=-1 --ulimit stack=67108864 --gpus=all --ipc=host --network host -d -e MODEL=nvidia/NVIDIA-Nemotron-3-Nano-4B-BF16 -e HF_TOKEN=$HF_TOKEN nvcr.io/nvidia/tensorrt-llm/release:1.3.0rc6 bash -c '
cat > /tmp/extra-llm-api-config.yml <<EOF
kv_cache_config:
  dtype: "auto"
  enable_block_reuse: false
cuda_graph_config:
  max_batch_size: 32
  enable_padding: true
disable_overlap_scheduler: true
moe_config: 
  backend: CUTLASS
EOF

trtllm-serve  \
nvidia/NVIDIA-Nemotron-3-Nano-4B-BF16 \
--host 0.0.0.0 \
--port 8123 \
--max_batch_size 32 \
--extra_llm_api_options /tmp/extra-llm-api-config.yml '

使用 curl 命令访问托管端点。

curl http://localhost:8123/v1/chat/completions -H "Content-Type: application/json"  -d '{
    "model": "NVIDIA-Nemotron-3-Nano-4B-BF16",
    "messages": [
        {
            "role": "user",
            "content": "Where is New York?"
        }
    ],
    "max_tokens": 1024,
    "top_p": 1.0
}' -w "\n"

模型版本

  • v1.0

训练、测试和评估数据集

训练数据集

  • 数据模态:文本
  • 文本训练数据量:超过 10 万亿 tokens
  • 训练/测试/验证集划分:我们使用 100% 的语料库进行预训练,并依赖外部基准进行测试。
  • 数据集的数据收集方法:混合:自动化、人工、合成
  • 数据集的标注方法:混合:自动化、人工、合成

特性: NVIDIA-Nemotron-3-Nano-4B 的训练后语料库包含英语和多语言文本(德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语、中文和英语)。我们的来源涵盖多种文档类型,如网页、对话、文章和其他书面材料。语料库跨越多个领域,包括代码、法律、数学、科学、金融等。我们还包含一小部分问答和对齐风格的数据,以提高模型的准确性。对于上述多个领域,我们使用了合成数据,特别是来自 DeepSeek R1/R1-0528、Qwen3-235B-A22B、Nemotron 4 340B、Qwen2.5-32B-Instruct-AWQ、Qwen2.5-14B-Instruct、Qwen 2.5 72B 的推理轨迹。

有关数据集和合成数据生成方法的更多详细信息,请参见技术报告 NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model。

公共数据集

数据集收集时间
Problems in Elementary Mathematics for Home Study2025年4月23日
GSM8K2025年4月23日
PRM800K2025年4月23日
CC-NEWS2025年4月23日
Common Crawl2025年4月23日
Wikimedia2025年4月23日
Bespoke-Stratos-17k2025年4月23日
tigerbot-kaggle-leetcodesolutions-en-2k2025年4月23日
glaive-function-calling-v22025年4月23日
APIGen Function-Calling2025年4月23日
LMSYS-Chat-1M2025年4月23日
Open Textbook Library - CC BY-SA & GNU subset 和 OpenStax - CC BY-SA subset2025年4月23日
Advanced Reasoning Benchmark, tigerbot-kaggle-leetcodesolutions-en-2k, PRM800K, 和 SciBench2025年4月23日
FineWeb-22025年4月23日
Court Listener历史下载
peS2o历史下载
OpenWebMath历史下载
BioRxiv历史下载
PMC Open Access Subset历史下载
OpenWebText2历史下载
Stack Exchange Data Dump历史下载
PubMed Abstracts历史下载
NIH ExPorter历史下载
arXiv历史下载
BigScience Workshop Datasets历史下载
Reddit Dataset历史下载
SEC's Electronic Data Gathering, Analysis, and Retrieval (EDGAR)历史下载
Public Software Heritage S3历史下载
The Stack历史下载
mC4历史下载
Advanced Mathematical Problem Solving历史下载
MathPile历史下载
NuminaMath CoT历史下载
PMC Article历史下载
FLAN历史下载
Advanced Reasoning Benchmark历史下载
SciBench历史下载
WikiTableQuestions历史下载
FinQA历史下载
Riddles历史下载
Problems in Elementary Mathematics for Home Study历史下载
MedMCQA历史下载
Cosmos QA历史下载
MCTest历史下载
AI2's Reasoning Challenge历史下载
OpenBookQA历史下载
MMLU Auxiliary Train历史下载
social-chemestry-101历史下载
Moral Stories历史下载
The Common Pile v0.1历史下载
FineMath历史下载
MegaMath历史下载
FastChat2025年6月30日
MultiverseMathHard2025年10月2日
SWE-Gym2025年10月2日
WorkBench2025年10月2日
WildChat-1M2025年10月2日
OpenCodeReasoning-22025年10月2日
HelpSteer32025年10月2日
opc-sft-stage22025年10月2日
Big-Math-RL-Verified2025年10月2日
NuminaMath CoT2025年10月2日
MetaMathQA2025年10月2日
simple-arithmetic-problems2025年10月2日
arithmetic2025年10月2日
Skywork-OR1-RL-Data2025年10月2日
News Commentary2025年10月2日
FastChat2025年10月2日
Essential-Web2025年10月2日
finepdfs2025年10月2日
HotpotQA2025年10月2日
SQuAD2.02025年10月2日
NLTK Words Lists2025年10月2日

第三方私有非公开数据集

数据集
Global Regulation
Workbench

在线数据集来源

英文Common Crawl数据从Common Crawl基金会下载(有关其爬取的详细信息,请参见其常见问题解答),包括快照CC-MAIN-2013-20至CC-MAIN-2025-13。随后,按照Nemotron-CC论文中描述的各种方式对数据进行了去重和过滤。

此外,我们从以下三个Common Crawl快照中提取了十五种语言的数据:CC-MAIN-2024-51、CC-MAIN-2025-08、CC-MAIN-2025-18。这十五种语言包括阿拉伯语、中文、丹麦语、荷兰语、法语、德语、意大利语、日语、韩语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语和泰语。由于我们没有可靠的基于多语言模型的质量分类器,因此我们仅应用了启发式过滤——类似于我们在Nemotron-CC流程中对较低质量英文数据所做的处理,但对某些效果不佳的语言有选择地移除了部分过滤器。去重操作与Nemotron-CC的方式相同。

GitHub Crawl是使用GitHub REST API和Amazon S3 API收集的。每次爬取都按照其各自来源(GitHub或S3)设定的速率限制进行。我们收集原始源代码,随后移除任何不在我们的宽松许可证集合中的许可证(更多详情,请参考技术报告)。

数据集模态数据集大小( tokens)收集日期
English Common Crawl文本3.360T4/8/2025
Multilingual Common Crawl文本812.7B5/1/2025
GitHub Crawl文本747.4B4/29/2025
English Common Crawl 1.1文本未披露10/2/2025

NVIDIA 来源的合成数据集

数据集模态数据集大小(tokens)种子数据集用于生成的模型
Synthetic Art of Problem Solving from DeepSeek-R1文本25.5BArt of Problem Solving; American Mathematics Competitions 8; American Mathematics Competitions 10;DeepSeek-R1
Synthetic Moral Stories and Social Chemistry from Mixtral-8x22B-v0.1文本327Msocial-chemestry-101; Moral StoriesMixtral-8x22B-v0.1
Synthetic Social Sciences seeded with OpenStax from DeepSeek-V3, Mixtral-8x22B-v0.1, and Qwen2.5-72B文本83.6MOpenStax - CC BY-SA subsetDeepSeek-V3; Mixtral-8x22B-v0.1; Qwen2.5-72B
Synthetic Health Sciences seeded with OpenStax from DeepSeek-V3, Mixtral-8x22B-v0.1, and Qwen2.5-72B文本9.7MOpenStax - CC BY-SA subsetDeepSeek-V3; Mixtral-8x22B-v0.1; Qwen2.5-72B
Synthetic STEM seeded with OpenStax, Open Textbook Library, and GSM8K from DeepSeek-R1, DeepSeek-V3, DeepSeek-V3-0324, and Qwen2.5-72B文本175MOpenStax - CC BY-SA subset; GSM8K; Open Textbook Library - CC BY-SA & GNU subsetDeepSeek-R1, DeepSeek-V3; DeepSeek-V3-0324; Qwen2.5-72B
Nemotron-PrismMath文本4.6BBig-Math-RL-Verified; OpenR1-Math-220kQwen2.5-0.5B-instruct, Qwen2.5-72B-Instruct; DeepSeek-R1-Distill-Qwen-32B
Synthetic Question Answering Data from Papers and Permissible Books from Qwen2.5-72B-Instruct文本350MarXiv; National Institutes of Health ExPorter; BioRxiv; PMC Article; USPTO Backgrounds; peS2o; Global Regulation; CORE; PG-19; DOAB CC BY & CC BY-SA subset; NDLTDQwen2.5-72B-Instruct
Synthetic FineMath-4+ Reprocessed from DeepSeek-V3文本9.2BCommon CrawlDeepSeek-V3
Synthetic FineMath-3+ Reprocessed from phi-4文本27.6BCommon Crawlphi-4
Synthetic Union-3+ Reprocessed from phi-4文本93.1BCommon Crawlphi-4
Refreshed Nemotron-MIND from phi-4文本73BCommon Crawlphi-4
Synthetic Union-4+ Reprocessed from phi-4文本14.12BCommon Crawlphi-4
Synthetic Union-3+ minus 4+ Reprocessed from phi-4文本78.95BCommon Crawlphi-4
Synthetic Union-3 Refreshed from phi-4文本80.94BCommon Crawlphi-4
Synthetic Union-4+ Refreshed from phi-4文本52.32BCommon Crawlphi-4
Synthetic AGIEval seeded with AQUA-RAT, LogiQA, and AR-LSAT from DeepSeek-V3 and DeepSeek-V3-0324文本4.0BAQUA-RAT; LogiQA; AR-LSATDeepSeek-V3; DeepSeek-V3-0324
Synthetic AGIEval seeded with AQUA-RAT, LogiQA, and AR-LSAT from Qwen3-30B-A3B文本4.2BAQUA-RAT; LogiQA; AR-LSATQwen3-30B-A3B
Synthetic Art of Problem Solving from Qwen2.5-32B-Instruct, Qwen2.5-Math-72B, Qwen2.5-Math-7B, and Qwen2.5-72B-Instruct文本83.1BArt of Problem Solving; American Mathematics Competitions 8; American Mathematics Competitions 10; GSM8K; PRM800KQwen2.5-32B-Instruct; Qwen2.5-Math-72B; Qwen2.5-Math-7B; Qwen2.5-72B-Instruct
Synthetic MMLU Auxiliary Train from DeepSeek-R1文本0.5BMMLU Auxiliary TrainDeepSeek-R1
Synthetic Long Context Continued Post-Training Data from Papers and Permissible Books from Qwen2.5-72B-Instruct文本5.4BarXiv; National Institutes of Health ExPorter; BioRxiv; PMC Article; USPTO Backgrounds; peS2o; Global Regulation; CORE; PG-19; DOAB CC BY & CC BY-SA subset; NDLTDQwen2.5-72B-Instruct
Synthetic Common Crawl from Qwen3-30B-A3B and Mistral-Nemo-12B-Instruct文本1.949TCommon CrawlQwen3-30B-A3B; Mistral-NeMo-12B-Instruct
Synthetic Multilingual Data from Common Crawl from Qwen3-30B-A3B文本997.3BCommon CrawlQwen3-30B-A3B
Synthetic Multilingual Data from Wikimedia from Qwen3-30B-A3B文本55.1BWikimediaQwen3-30B-A3B
Synthetic OpenMathReasoning from DeepSeek-R1-0528文本1.5MOpenMathReasoningDeepSeek-R1-0528
Synthetic OpenCodeReasoning from DeepSeek-R1-0528文本1.1MOpenCodeReasoningDeepSeek-R1-0528
Synthetic Science Data from DeepSeek-R1-0528文本1.5M-DeepSeek-R1-0528
Synthetic Humanity's Last Exam from DeepSeek-R1-0528文本460KHumanity's Last ExamDeepSeek-R1-0528
Synthetic ToolBench from Qwen3-235B-A22B文本400KToolBenchQwen3-235B-A22B
Synthetic Nemotron Content Safety Dataset V2, eval-safety, Gretel Synthetic Safety Alignment, and RedTeam_2K from DeepSeek-R1-0528文本52KNemotron Content Safety Dataset V2; eval-safety; Gretel Synthetic Safety Alignment; RedTeam_2KDeepSeek-R1-0528
Synthetic HelpSteer from Qwen3-235B-A22B文本120KHelpSteer3; HelpSteer2Qwen3-235B-A22B
Synthetic Alignment data from Mixtral-8x22B-Instruct-v0.1, Mixtral-8x7B-Instruct-v0.1, and Nemotron-4 Family文本400KHelpSteer2; C4; LMSYS-Chat-1M; ShareGPT52K; tigerbot-kaggle-leetcodesolutions-en-2k; GSM8K; PRM800K; lm_identity (NVIDIA internal); FinQA; WikiTableQuestions; Riddles; ChatQA nvolve-multiturn (NVIDIA internal); glaive-function-calling-v2; SciBench; OpenBookQA; Advanced Reasoning Benchmark; Public Software Heritage S3; Khan Academy Math KeywordsNemotron-4-15B-Base (NVIDIA internal); Nemotron-4-15B-Instruct (NVIDIA internal); Nemotron-4-340B-Base; Nemotron-4-340B-Instruct; Nemotron-4-340B-Reward; Mixtral-8x7B-Instruct-v0.1; Mixtral-8x22B-Instruct-v0.1
Synthetic LMSYS-Chat-1M from Qwen3-235B-A22B文本1MLMSYS-Chat-1MQwen3-235B-A22B
Synthetic Multilingual Reasoning data from DeepSeek-R1-0528, Qwen2.5-32B-Instruct-AWQ, and Qwen2.5-14B-Instruct文本25MOpenMathReasoning; OpenCodeReasoningDeepSeek-R1-0528; Qwen2.5-32B-Instruct-AWQ (translation); Qwen2.5-14B-Instruct (translation);
Synthetic Multilingual Reasoning data from Qwen3-235B-A22B and Gemma 3 Post-Trained models文本5MWildChatQwen3-235B-A22B; Gemma 3 PT 12B; Gemma 3 PT 27B
Tool Calling Data文本26.2BQwen3-235B-A22B-2507; gpt-oss-120b
Synthetic Essential-Web from QwQ-32B文本28.1BEssential-WebQwQ-32B
Translated Synthetic Crawl文本389.9BCommon CrawlQwen3-30B-A3B
Translated Synthetic Wikipedia文本7.9BWikimediaQwen3-30B-A3B
Synthetic Art of Problem Solving from gpt-oss-120b and Qwen2.5-32B-Instruct文本UndisclosedArt of Problem Solving; American Mathematics Competitions 8; American Mathematics Competitions 10gpt-oss-120b; Qwen2.5-32B-Instruct
Synthetic Stack Exchange from gpt-oss-120b and Qwen2.5-32B-Instruct文本UndisclosedStack Exchangegpt-oss-120b; Qwen2.5-32B-Instruct
Synthetic OpenCodeReasoning from DeepSeek-R1-0528文本UndisclosedOpenCodeReasoningDeepSeek-R1-0528
Synthetic HackerRank Coding from DeepSeek-R1-0528文本UndisclosedHackerRank Coding DatasetDeepSeek-R1-0528
Synthetic SWE-Gym from Qwen3-Coder-480B-A35B-Instruct文本UndisclosedSWE-GymQwen3-Coder-480B-A35B-Instruct
Synthetic Art of Problem Solving and Stack Exchange from gpt-oss-120b, Qwen2.5-32B-Instruct, and Goedel-Prover-V2-32B文本UndisclosedArt of Problem Solving; American Mathematics Competitions 8; American Mathematics Competitions 10; Stack Exchangegpt-oss-120b; Qwen2.5-32B-Instruct; Goedel-Prover-V2-32B
Synthetic Multilingual Science and Code data from DeepSeek-R1, DeepSeek-R1-0528, Qwen2.5-32B-Instruct, and Qwen3-235B-A22B, translated with Qwen2.5-32B-Instruct and Qwen2.5-14B-Instruct文本UndisclosedStack Exchange; SCP-116K; LIMO; TACO; Code Contest; CodeforcesDeepSeek-R1; DeepSeek-R1-0528; Qwen2.5-32B-Instruct; Qwen3-235B-A22B;
Synthetic Safety from DeepSeek-R1-0528, gpt-oss-120b and Mixtral-8x7B-v0.1文本UndisclosedNemotron Content Safety Dataset V2; Gretel Synthetic Safety Alignment Dataset; RedTeam-2K; Malicious Tasks; Nemotron-Personas-USADeepSeek-R1-0528; gpt-oss-120b; Mixtral-8x7B-v0.1
来自 Qwen3-235B-A22B-Instruct-2507 和 gpt-oss-120b 的合成 STEM文本未公开arXiv;美国国立卫生研究院 ExPorter;BioRxiv;PMC 文章;美国专利商标局背景资料;peS2o;全球法规;CORE;PG-19;DOAB CC BY & CC BY-SA 子集;NDLTDQwen3-235B-A22B-Instruct-2507;gpt-oss-120b
来自 DeepSeek-R1-0528 的合成 KernelBook文本未公开KernelBookDeepSeek-R1-0528
来自 Qwen3-235B-A22B-Thinking-2507 和 Qwen3-Next-80B-A3B-Thinking 的合成工具调用文本未公开ToolBench;glaive-function-calling-v2;APIGen 函数调用;Nemotron-Personas-USAQwen3-235B-A22B-Thinking-2507;Qwen3-Next-80B-A3B-Thinking
来自 gpt-oss-120b、Mixtral-8x22B-Instruct-v0.1、Qwen3-235B-A22B-Instruct-2507 和 Qwen3-235B-A22B-Thinking-2507 的合成对话文本未公开C4;LMSYS-Chat-1M;ShareGPT;GSM8K;PRM800K;FinQA;WikiTableQuestions;谜语;glaive-function-calling-v2;SciBench;tigerbot-kaggle-leetcodesolutions-en-2k;OpenBookQA;高级推理基准;软件遗产;可汗学院数学关键词;WildChat-1M;Nemotron-Personas-USAgpt-oss-120b;Mixtral-8x22B-Instruct-v0.1;Qwen3-235B-A22B-Instruct-2507;Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-235B-A22B-Instruct-2507 的合成长上下文文本未公开CORE;PG-19;DOAB CC BY & CC BY-SA 子集;NDLTDQwen3-235B-A22B-Instruct-2507
来自 gpt-oss-120b、DeepSeek-R1-0528、Qwen3-32B 和 Qwen3-235B-A22B-Thinking-2507 的合成工具使用交互式智能体文本未公开NVIDIA 内部gpt-oss-120b;DeepSeek-R1-0528;Qwen3-32B;和 Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-235B-A22B-Thinking-2507 的合成 STEM文本未公开ICHO-IPH0;Physics Big;Scale HLE;OpenMathReasoning;OpenCodeReasoningQwen3-235B-A22B-Thinking-2507
来自 Qwen3-Coder-480B-A35B-Instruct 和 Kimi-K2-Thinking 的合成 DocFinQA 和 SWE-smith文本未公开DocFinQA;SWE-smithQwen3-Coder-480B-A35B-Instruct;Kimi-K2-Thinking
来自 gpt-oss-120b 和 Qwen2.5-32B-Instruct 的合成数学文本未公开-gpt-oss-120b;Qwen2.5-32B-Instruct
来自 gpt-oss-120b 的合成 Essential-Web文本未公开Essential-Webgpt-oss-120b
来自 gpt-oss-120b 的合成 Scale HLE文本未公开Scale HLEgpt-oss-120b
来自 gpt-oss-120b 的合成 CDQuestions文本未公开CDQuestionsgpt-oss-120b
来自 gpt-oss-120b 的合成 Stack Exchange文本未公开Stack Exchangegpt-oss-120b
来自 gpt-oss-120b 和 Qwen2.5-32B-Instruct 的合成 GPQA文本未公开Stack Exchangegpt-oss-120b;Qwen2.5-32B-Instruct
来自 gpt-oss-120b 的合成 Vedantu文本未公开Vedantugpt-oss-120b
来自 Qwen3-Coder-480B-A35B-Instruct 的合成 SWE-Gym 和 R2E-Gym-Subset文本未公开SWE-Gym;R2E-Gym-SubsetQwen3-Coder-480B-A35B-Instruct
来自 Qwen3-Coder-480B-A35B-Instruct 的合成 SWE-Gym文本未公开SWE-GymQwen3-Coder-480B-A35B-Instruct
来自 DeepSeek-R1-0528 的合成 SWE-Gym 和 R2E-Gym-Subset文本未公开SWE-Gym;R2E-Gym-SubsetDeepSeek-R1-0528
来自 gpt-oss-120b、Qwen3-235B-A22B-Instruct-2507 和 Qwen3-235B-A22B-Thinking-2507 的合成 HelpSteer、LMSYS-Chat-1M 和 Nemotron-Personas-USA文本未公开HelpSteer2;HelpSteer3;LMSYS-Chat-1M;Nemotron-Personas-USAgpt-oss-120b;Qwen3-235B-A22B-Instruct-2507;Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-30B-A3B-Instruct-2507、Qwen3-30B-A3B-Thinking-2507、Qwen3-235B-A22B-Instruct-2507 和 Qwen3-235B-A22B-Thinking-2507 的合成结构化输出文本未公开-Qwen3-30B-A3B-Instruct-2507;Qwen3-30B-A3B-Thinking-2507;Qwen3-235B-A22B-Instruct-2507;Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-235B-A22B 和 DeepSeek-R1-0528 的合成搜索 STEM MCQ文本未公开-Qwen3-235B-A22B;DeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成搜索 STEM OPENQ文本未公开-DeepSeek-R1-0528
来自 Qwen2.5-32B-Instruct 和 DeepSeek-R1-0528 的合成 OpenSTEM文本未公开-Qwen2.5-32B-Instruct;DeepSeek-R1-0528
来自 Qwen2.5-32B-Instruct 和 DeepSeek-R1-0528 的合成 MCQ文本未公开-Qwen2.5-32B-Instruct;DeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成 MCQ10文本未公开-DeepSeek-R1-0528
来自 Qwen3-235B-A22B、DeepSeek-R1-0528 和 Qwen3-235B-A22B-Instruct-2507 的合成 MCQ4文本未公开-Qwen3-235B-A22B;DeepSeek-R1-0528;Qwen3-235B-A22B-Instruct-2507
来自 gpt-oss-120b 和 Qwen2.5-32B-Instruct 的合成 OpenMathReasoning文本未公开OpenMathReasoninggpt-oss-120b;Qwen2.5-32B-Instruct
来自 DeepSeek-R1-0528 的合成离线搜索 MCQA HLE文本未公开-DeepSeek-R1-0528
来自 Qwen3-235B-A22B 和 DeepSeek-R1-0528 的合成离线搜索 MCQA GPQA文本未公开-Qwen3-235B-A22B;DeepSeek-R1-0528
来自 QwQ-32B、Qwen3-30B-A3B、Qwen3-235B-A22B、Qwen3-235B-A22B-Instruct-2507、Mistral-Small-3.1-24B-Instruct-2503、Mistral-Small-3.2-24B-Instruct-2506、MiniMax-M1-80k、MiniMax-M1-40k、Kimi-K2-Instruct、DeepSeek-V3-0324、DeepSeek-R1-0528 的合成人类偏好文本未公开-QwQ-32B;Qwen3-30B-A3B;Qwen3-235B-A22B;Qwen3-235B-A22B-Instruct-2507;Mistral-Small-3.1-24B-Instruct-2503;Mistral-Small-3.2-24B-Instruct-2506;MiniMax-M1-80k;MiniMax-M1-40k;Kimi-K2-Instruct;DeepSeek-V3-0324;DeepSeek-R1-0528
来自 DeepSeek-R1、gemma-2-2b-it、gemma-3-27b-it、gpt-oss-20b、gpt-oss-120b、Mistral-7B-Instruct-v0.3、Mixtral-8x22B-Instruct-v0.1、Nemotron-4-340B-Instruct、NVIDIA-Nemotron-Nano-9B-v2、Phi-4-mini-instruct、Phi-3-small-8k-instruct、Phi-3-medium-4k-instruct、Qwen3-235B-A22B、QwQ-32B 的合成 WildChat-1M 和 arena-human-preference-140k文本未公开WildChat-1M;arena-human-preference-140kDeepSeek-R1;gemma-2-2b-it;gemma-3-27b-it;gpt-oss-20b;gpt-oss-120b;Mistral-7B-Instruct-v0.3;Mixtral-8x22B-Instruct-v0.1;Nemotron-4-340B-Instruct;NVIDIA-Nemotron-Nano-9B-v2;Phi-4-mini-instruct;Phi-3-small-8k-instruct;Phi-3-medium-4k-instruct;Qwen3-235B-A22B;QwQ-32B
来自 DeepSeek-R1-0528、gpt-oss-120b、DeepSeek-R1-Distill-Qwen-7B 和 Mixtral-8x7B-v0.1 的合成安全性文本未公开Nemotron 内容安全数据集 V2;Gretel 合成安全对齐数据集;RedTeam-2K;恶意任务;DeepSeek-R1-0528;gpt-oss-120b;DeepSeek-R1-Distill-Qwen-7B;Qwen3-30B-A3B-Thinking-2507;Qwen3-235B-A22B-Instruct-2507;Mixtral-8x7B-v0.1
来自 Qwen3-32B 的合成代码文本未公开英文通用爬虫数据;英文通用爬虫数据 1.1Qwen3-32B
来自 DeepSeek-R1 的合成 OpenCodeReasoning文本未公开OpenCodeReasoningDeepSeek-R1
来自 DeepSeek-R1-0528 的合成 LIMO文本未公开LIMODeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成 SCP文本未公开SCP-116KDeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成 Stack Exchange文本未公开Stack ExchangeDeepSeek-R1-0528
来自 Qwen3-30B-A3B 的合成通用爬虫数据文本未公开Common CrawlQwen3-30B-A3B
来自 Qwen3-30B-A3B 的合成维基百科文本未公开维基媒体Qwen3-30B-A3B
来自 Qwen3-30B-A3B 和 Qwen3-235B-A22B-Thinking-2507 的合成 Essential-Web文本未公开Essential-WebQwen3-30B-A3B;Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-30B-A3B、Qwen3-235B-A22B、phi-4 的合成教科书数学文本未公开Common Crawl;FineMathQwen3-30B-A3B;Qwen3-235B-A22B;phi-4
来自 DeepSeek-R1 和 DeepSeek-R1-0528 的合成数学与代码文本未公开Magicoder-Evol-Instruct-110K;opc-sft-stage2;TACO;OpenCodeReasoning;OpenMathReasoning;NuminaMath CoTDeepSeek-R1;DeepSeek-R1-0528
来自 gpt-oss-120b 和 Qwen3-8B 的合成 Nemotron-Personas-USA文本未公开Nemotron-Personas-USAgpt-oss-120b;Qwen3-8B

数据集收集周期
Problems in Elementary Mathematics for Home Study2025年4月23日
GSM8K2025年4月23日

评估数据集:

  • 各数据集的数据收集方法:混合:人工、合成
  • 各数据集的标注方法:混合:自动化、人工、合成

推理

  • 引擎:HF、vLLM、llama-cpp、TRT-LLM、SGLang
  • 测试硬件:NVIDIA GeForce RTX、H100 80GB、DGX Spark、Jetson Thor/Orin Nano

伦理考量

NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持各类 AI 应用的开发。当按照我们的可信 AI 服务条款下载或使用时,开发人员应与内部模型团队合作,确保该模型满足相关行业和用例的要求,并应对意外的产品误用问题。

我们建议不要规避模型中包含的任何安全防护措施,除非为您的用例设置了实质上类似的防护措施。更多详情:安全性和可解释性子卡片。

有关此模型伦理考量的更多详细信息,请参阅 Model Card++ 的偏见和隐私子卡片。

请在此报告安全漏洞或 NVIDIA AI 相关问题。