HuggingFace镜像/NVIDIA-Nemotron-3-Nano-4B-GGUF
模型介绍文件和版本分析
下载使用量0
Pre-Training Datasets Post-Training Datasets
Homepage Discord
License

NVIDIA-Nemotron-3-Nano-4B-GGUF

模型开发者: NVIDIA Corporation

模型日期:

2025年12月 - 2026年1月

数据时效性:

2024年9月

预训练数据的截止日期为2024年9月。

模型概述

NVIDIA-Nemotron-3-Nano-4B-GGUF 是 NVIDIA-Nemotron-3-Nano-4B-BF16 的量化版本(Q4_K_M),是由 NVIDIA 从头开始训练的小型语言模型(SLM),设计为兼顾推理和非推理任务的统一模型。它通过首先生成推理轨迹,然后给出最终响应来响应用户查询和任务。模型的推理能力可通过系统提示进行控制。如果用户希望模型直接提供最终答案而不展示中间推理过程,可以进行相应配置,不过对于需要推理的较难提示,其准确率会略有下降。相反,允许模型先生成推理轨迹通常能为查询和任务带来更高质量的最终解决方案。

该模型是使用 Nemotron Elastic 框架从 NVIDIA-Nemotron-Nano-9B-v2 压缩而来。父模型 NVIDIA-Nemotron-Nano-9B-v2 的详细信息可参见 (Nemotron-H 技术报告)。该模型采用混合架构,主要由 Mamba-2 和 MLP 层组成,并结合了仅有的四个注意力层。

支持的语言包括:英语。借助 Qwen 进行了优化。

此模型已准备好投入商业使用。

许可协议/使用条款

管辖条款:本模型的使用受 NVIDIA Nemotron Open Model License 管辖。

评估结果:

我们在 Reasoning-off 模式下通过以下基准测试对模型进行了评估

基准测试NVIDIA-Nemotron-3-Nano-4B-BF16NVIDIA-Nemotron-3-Nano-4B-FP8NVIDIA-Nemotron-3-Nano-4B-Q4_K_M
IFBench-Prompt43.243.8846.9
IFBench-Instruction44.244.7849.6
Orak22.920.7219.8
IFEval-Prompt82.885.7781.5
IFEval-Instruction88.087.5383.9
HaluEval62.262.262.4
RULER (128k)91.191.091.2

所有评估均使用 NeMo-Skills 和 Orak 完成。对于 Orak,我们在三款游戏(《超级马里奥》《暗黑地牢》和《星露谷物语》)上进行了评估。

部署地区:全球

用例

NVIDIA-Nemotron-3-Nano-4B 是一款边缘就绪型小型语言模型,适用于边缘平台(Jetson Thor、GeForce RTX、DGX Spark)上的智能体 AI。其主要目标应用场景包括 AI 游戏 NPC(队友/同伴)、本地语音助手(适用于设备、应用程序和游戏)以及物联网自动化。该模型适用于英语和编程语言。

发布日期:2026年3月16日

Huggingface 2026年3月16日通过 https://huggingface.co/

参考文献

  • NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model
  • Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs
  • NVIDIA Nemotron 3: Efficient and Open Intelligence
  • Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning
  • Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

模型架构

  • 架构类型:Mamba2-Transformer 混合架构
  • 网络架构:Nemotron-Hybrid
    • 本模型由 nvidia/NVIDIA-Nemotron-Nano-9B-v2 压缩而来
    • 模型参数数量:3.97 x 10^9

输入

  • 输入类型:文本
  • 输入格式:字符串
  • 输入参数:一维(1D):序列
  • 其他输入相关属性:上下文长度最高可达 262K。支持的语言包括英语。

输出

  • 输出类型:文本
  • 输出格式:字符串
  • 输出参数:一维(1D):序列
  • 其他输出相关属性:序列长度最高可达 262K

我们的模型经过专门设计和优化,可在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件(如 GPU 核心)和软件框架(如 CUDA 库),与纯 CPU 解决方案相比,该模型实现了更快的训练和推理速度。

软件集成

  • 运行时引擎:NeMo 25.07
  • 支持的硬件微架构兼容性:NVIDIA A10G、NVIDIA H100-80GB、NVIDIA A100、GeForce RTX
  • 操作系统:Linux

将基础模型和微调模型集成到 AI 系统中时,需要使用特定用例的数据进行额外测试,以确保安全有效的部署。遵循 V 模型方法论,在单元和系统层面进行迭代测试和验证,对于在部署前降低风险、满足技术和功能要求以及确保符合安全和伦理标准至关重要。

在 llama.cpp 中使用

启动兼容 OpenAI 的 API 服务器

./llama-server -hf nvidia/NVIDIA-Nemotron-3-Nano-4B-GGUF:Q4_K_M -c 0 --alias my_model -ngl 999 --port 5000 --host 0.0.0.0

模型版本

  • v1.0

训练、测试和评估数据集

训练数据集

  • 数据模态:文本
  • 文本训练数据量:超过 10 万亿个标记
  • 训练/测试/验证集划分:我们使用了 100% 的语料库进行预训练,并依赖外部基准进行测试。
  • 各数据集的数据收集方法:混合:自动化、人工、合成
  • 各数据集的标注方法:混合:自动化、人工、合成

特性: NVIDIA-Nemotron-3-Nano-4B 的训练后语料库包含英文和多语言文本(德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语、中文和英语)。我们的来源涵盖多种文档类型,如网页、对话、文章和其他书面材料。语料库涉及的领域包括代码、法律、数学、科学、金融等。我们还包含小部分问答和对齐风格数据,以提高模型准确性。对于上述多个领域,我们使用了合成数据,特别是来自 DeepSeek R1/R1-0528、Qwen3-235B-A22B、Nemotron 4 340B、Qwen2.5-32B-Instruct-AWQ、Qwen2.5-14B-Instruct、Qwen 2.5 72B 的推理轨迹。

有关数据集和合成数据生成方法的更多详细信息,请参见技术报告 NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model。

公共数据集

数据集收集时间
Problems in Elementary Mathematics for Home Study2025年4月23日
GSM8K2025年4月23日
PRM800K2025年4月23日
CC-NEWS2025年4月23日
Common Crawl2025年4月23日
Wikimedia2025年4月23日
Bespoke-Stratos-17k2025年4月23日
tigerbot-kaggle-leetcodesolutions-en-2k2025年4月23日
glaive-function-calling-v22025年4月23日
APIGen Function-Calling2025年4月23日
LMSYS-Chat-1M2025年4月23日
Open Textbook Library - CC BY-SA & GNU subset 和 OpenStax - CC BY-SA subset2025年4月23日
Advanced Reasoning Benchmark、tigerbot-kaggle-leetcodesolutions-en-2k、PRM800K 和 SciBench2025年4月23日
FineWeb-22025年4月23日
Court Listener历史下载
peS2o历史下载
OpenWebMath历史下载
BioRxiv历史下载
PMC Open Access Subset历史下载
OpenWebText2历史下载
Stack Exchange Data Dump历史下载
PubMed Abstracts历史下载
NIH ExPorter历史下载
arXiv历史下载
BigScience Workshop Datasets历史下载
Reddit Dataset历史下载
SEC's Electronic Data Gathering, Analysis, and Retrieval (EDGAR)历史下载
Public Software Heritage S3历史下载
The Stack历史下载
mC4历史下载
Advanced Mathematical Problem Solving历史下载
MathPile历史下载
NuminaMath CoT历史下载
PMC Article历史下载
FLAN历史下载
Advanced Reasoning Benchmark历史下载
SciBench历史下载
WikiTableQuestions历史下载
FinQA历史下载
Riddles历史下载
Problems in Elementary Mathematics for Home Study历史下载
MedMCQA历史下载
Cosmos QA历史下载
MCTest历史下载
AI2's Reasoning Challenge历史下载
OpenBookQA历史下载
MMLU Auxiliary Train历史下载
social-chemestry-101历史下载
Moral Stories历史下载
The Common Pile v0.1历史下载
FineMath历史下载
MegaMath历史下载
FastChat2025年6月30日
MultiverseMathHard2025年10月2日
SWE-Gym2025年10月2日
WorkBench2025年10月2日
WildChat-1M2025年10月2日
OpenCodeReasoning-22025年10月2日
HelpSteer32025年10月2日
opc-sft-stage22025年10月2日
Big-Math-RL-Verified2025年10月2日
NuminaMath CoT2025年10月2日
MetaMathQA2025年10月2日
simple-arithmetic-problems2025年10月2日
arithmetic2025年10月2日
Skywork-OR1-RL-Data2025年10月2日
News Commentary2025年10月2日
FastChat2025年10月2日
Essential-Web2025年10月2日
finepdfs2025年10月2日
HotpotQA2025年10月2日
SQuAD2.02025年10月2日
NLTK Words Lists2025年10月2日

第三方私有非公开数据集

数据集
Global Regulation
Workbench

在线数据集来源

英文Common Crawl数据从Common Crawl基金会下载(其爬取详情参见常见问题),包含CC-MAIN-2013-20至CC-MAIN-2025-13的快照。随后,按照Nemotron-CC论文中描述的多种方式对数据进行去重和过滤。

此外,我们从以下三个Common Crawl快照中提取了十五种语言的数据:CC-MAIN-2024-51、CC-MAIN-2025-08、CC-MAIN-2025-18。这十五种语言包括阿拉伯语、中文、丹麦语、荷兰语、法语、德语、意大利语、日语、韩语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语和泰语。由于我们没有可靠的基于多语言模型的质量分类器,因此仅应用了启发式过滤——类似于我们在Nemotron-CC pipeline中对低质量英文数据所做的处理,但对某些效果不佳的语言有选择地移除了部分过滤器。去重操作与Nemotron-CC的方式相同。

GitHub Crawl是使用GitHub REST API和Amazon S3 API收集的。每次爬取都按照各自来源(GitHub或S3)设定的速率限制进行。我们收集原始源代码,随后移除任何不包含在我们的宽松许可证集中的许可证(更多详情请参考技术报告)。

数据集模态数据集大小( tokens)收集日期
English Common Crawl文本3.360T2025年4月8日
Multilingual Common Crawl文本812.7B2025年5月1日
GitHub Crawl文本747.4B2025年4月29日
English Common Crawl 1.1文本未披露2025年10月2日

NVIDIA来源的合成数据集

数据集模态数据集大小( tokens)种子数据集用于生成的模型
Synthetic Art of Problem Solving from DeepSeek-R1文本25.5BArt of Problem Solving; American Mathematics Competitions 8; American Mathematics Competitions 10;DeepSeek-R1
Synthetic Moral Stories and Social Chemistry from Mixtral-8x22B-v0.1文本327Msocial-chemestry-101; Moral StoriesMixtral-8x22B-v0.1
Synthetic Social Sciences seeded with OpenStax from DeepSeek-V3, Mixtral-8x22B-v0.1, and Qwen2.5-72B文本83.6MOpenStax - CC BY-SA subsetDeepSeek-V3; Mixtral-8x22B-v0.1; Qwen2.5-72B
Synthetic Health Sciences seeded with OpenStax from DeepSeek-V3, Mixtral-8x22B-v0.1, and Qwen2.5-72B文本9.7MOpenStax - CC BY-SA subsetDeepSeek-V3; Mixtral-8x22B-v0.1; Qwen2.5-72B
Synthetic STEM seeded with OpenStax, Open Textbook Library, and GSM8K from DeepSeek-R1, DeepSeek-V3, DeepSeek-V3-0324, and Qwen2.5-72B文本175MOpenStax - CC BY-SA subset; GSM8K; Open Textbook Library - CC BY-SA & GNU subsetDeepSeek-R1, DeepSeek-V3; DeepSeek-V3-0324; Qwen2.5-72B
Nemotron-PrismMath文本4.6BBig-Math-RL-Verified; OpenR1-Math-220kQwen2.5-0.5B-instruct, Qwen2.5-72B-Instruct; DeepSeek-R1-Distill-Qwen-32B
Synthetic Question Answering Data from Papers and Permissible Books from Qwen2.5-72B-Instruct文本350MarXiv; National Institutes of Health ExPorter; BioRxiv; PMC Article; USPTO Backgrounds; peS2o; Global Regulation; CORE; PG-19; DOAB CC BY & CC BY-SA subset; NDLTDQwen2.5-72B-Instruct
Synthetic FineMath-4+ Reprocessed from DeepSeek-V3文本9.2BCommon CrawlDeepSeek-V3
Synthetic FineMath-3+ Reprocessed from phi-4文本27.6BCommon Crawlphi-4
Synthetic Union-3+ Reprocessed from phi-4文本93.1BCommon Crawlphi-4
Refreshed Nemotron-MIND from phi-4文本73BCommon Crawlphi-4
Synthetic Union-4+ Reprocessed from phi-4文本14.12BCommon Crawlphi-4
Synthetic Union-3+ minus 4+ Reprocessed from phi-4文本78.95BCommon Crawlphi-4
Synthetic Union-3 Refreshed from phi-4文本80.94BCommon Crawlphi-4
Synthetic Union-4+ Refreshed from phi-4文本52.32BCommon Crawlphi-4
Synthetic AGIEval seeded with AQUA-RAT, LogiQA, and AR-LSAT from DeepSeek-V3 and DeepSeek-V3-0324文本4.0BAQUA-RAT; LogiQA; AR-LSATDeepSeek-V3; DeepSeek-V3-0324
Synthetic AGIEval seeded with AQUA-RAT, LogiQA, and AR-LSAT from Qwen3-30B-A3B文本4.2BAQUA-RAT; LogiQA; AR-LSATQwen3-30B-A3B
Synthetic Art of Problem Solving from Qwen2.5-32B-Instruct, Qwen2.5-Math-72B, Qwen2.5-Math-7B, and Qwen2.5-72B-Instruct文本83.1BArt of Problem Solving; American Mathematics Competitions 8; American Mathematics Competitions 10; GSM8K; PRM800KQwen2.5-32B-Instruct; Qwen2.5-Math-72B; Qwen2.5-Math-7B; Qwen2.5-72B-Instruct
Synthetic MMLU Auxiliary Train from DeepSeek-R1文本0.5BMMLU Auxiliary TrainDeepSeek-R1
Synthetic Long Context Continued Post-Training Data from Papers and Permissible Books from Qwen2.5-72B-Instruct文本5.4BarXiv; National Institutes of Health ExPorter; BioRxiv; PMC Article; USPTO Backgrounds; peS2o; Global Regulation; CORE; PG-19; DOAB CC BY & CC BY-SA subset; NDLTDQwen2.5-72B-Instruct
Synthetic Common Crawl from Qwen3-30B-A3B and Mistral-Nemo-12B-Instruct文本1.949TCommon CrawlQwen3-30B-A3B; Mistral-NeMo-12B-Instruct
Synthetic Multilingual Data from Common Crawl from Qwen3-30B-A3B文本997.3BCommon CrawlQwen3-30B-A3B
Synthetic Multilingual Data from Wikimedia from Qwen3-30B-A3B文本55.1BWikimediaQwen3-30B-A3B
Synthetic OpenMathReasoning from DeepSeek-R1-0528文本1.5MOpenMathReasoningDeepSeek-R1-0528
Synthetic OpenCodeReasoning from DeepSeek-R1-0528文本1.1MOpenCodeReasoningDeepSeek-R1-0528
Synthetic Science Data from DeepSeek-R1-0528文本1.5M-DeepSeek-R1-0528
Synthetic Humanity's Last Exam from DeepSeek-R1-0528文本460KHumanity's Last ExamDeepSeek-R1-0528
Synthetic ToolBench from Qwen3-235B-A22B文本400KToolBenchQwen3-235B-A22B
Synthetic Nemotron Content Safety Dataset V2, eval-safety, Gretel Synthetic Safety Alignment, and RedTeam_2K from DeepSeek-R1-0528文本52KNemotron Content Safety Dataset V2; eval-safety; Gretel Synthetic Safety Alignment; RedTeam_2KDeepSeek-R1-0528
Synthetic HelpSteer from Qwen3-235B-A22B文本120KHelpSteer3; HelpSteer2Qwen3-235B-A22B
Synthetic Alignment data from Mixtral-8x22B-Instruct-v0.1, Mixtral-8x7B-Instruct-v0.1, and Nemotron-4 Family文本400KHelpSteer2; C4; LMSYS-Chat-1M; ShareGPT52K; tigerbot-kaggle-leetcodesolutions-en-2k; GSM8K; PRM800K; lm_identity (NVIDIA internal); FinQA; WikiTableQuestions; Riddles; ChatQA nvolve-multiturn (NVIDIA internal); glaive-function-calling-v2; SciBench; OpenBookQA; Advanced Reasoning Benchmark; Public Software Heritage S3; Khan Academy Math KeywordsNemotron-4-15B-Base (NVIDIA internal); Nemotron-4-15B-Instruct (NVIDIA internal); Nemotron-4-340B-Base; Nemotron-4-340B-Instruct; Nemotron-4-340B-Reward; Mixtral-8x7B-Instruct-v0.1; Mixtral-8x22B-Instruct-v0.1
Synthetic LMSYS-Chat-1M from Qwen3-235B-A22B文本1MLMSYS-Chat-1MQwen3-235B-A22B
Synthetic Multilingual Reasoning data from DeepSeek-R1-0528, Qwen2.5-32B-Instruct-AWQ, and Qwen2.5-14B-Instruct文本25MOpenMathReasoning; OpenCodeReasoningDeepSeek-R1-0528; Qwen2.5-32B-Instruct-AWQ (translation); Qwen2.5-14B-Instruct (translation);
Synthetic Multilingual Reasoning data from Qwen3-235B-A22B and Gemma 3 Post-Trained models文本5MWildChatQwen3-235B-A22B; Gemma 3 PT 12B; Gemma 3 PT 27B
Tool Calling Data文本26.2BQwen3-235B-A22B-2507; gpt-oss-120b
Synthetic Essential-Web from QwQ-32B文本28.1BEssential-WebQwQ-32B
Translated Synthetic Crawl文本389.9BCommon CrawlQwen3-30B-A3B
Translated Synthetic Wikipedia文本7.9BWikimediaQwen3-30B-A3B
Synthetic Art of Problem Solving from gpt-oss-120b and Qwen2.5-32B-Instruct文本UndisclosedArt of Problem Solving; American Mathematics Competitions 8; American Mathematics Competitions 10gpt-oss-120b; Qwen2.5-32B-Instruct
Synthetic Stack Exchange from gpt-oss-120b and Qwen2.5-32B-InstructTextUndisclosedStack Exchangegpt-oss-120b; Qwen2.5-32B-Instruct
Synthetic OpenCodeReasoning from DeepSeek-R1-0528TextUndisclosedOpenCodeReasoningDeepSeek-R1-0528
Synthetic HackerRank Coding from DeepSeek-R1-0528TextUndisclosedHackerRank Coding DatasetDeepSeek-R1-0528
Synthetic SWE-Gym from Qwen3-Coder-480B-A35B-InstructTextUndisclosedSWE-GymQwen3-Coder-480B-A35B-Instruct
Synthetic Art of Problem Solving and Stack Exchange from gpt-oss-120b, Qwen2.5-32B-Instruct, and Goedel-Prover-V2-32BTextUndisclosedArt of Problem Solving; American Mathematics Competitions 8; American Mathematics Competitions 10; Stack Exchangegpt-oss-120b; Qwen2.5-32B-Instruct; Goedel-Prover-V2-32B
Synthetic Multilingual Science and Code data from DeepSeek-R1, DeepSeek-R1-0528, Qwen2.5-32B-Instruct, and Qwen3-235B-A22B, translated with Qwen2.5-32B-Instruct and Qwen2.5-14B-InstructTextUndisclosedStack Exchange; SCP-116K; LIMO; TACO; Code Contest; CodeforcesDeepSeek-R1; DeepSeek-R1-0528; Qwen2.5-32B-Instruct; Qwen3-235B-A22B;
Synthetic Safety from DeepSeek-R1-0528, gpt-oss-120b and Mixtral-8x7B-v0.1TextUndisclosedNemotron Content Safety Dataset V2; Gretel Synthetic Safety Alignment Dataset; RedTeam-2K; Malicious Tasks; Nemotron-Personas-USADeepSeek-R1-0528; gpt-oss-120b; Mixtral-8x7B-v0.1
来自Qwen3-235B-A22B-Instruct-2507和gpt-oss-120b的合成STEM文本未公开arXiv;美国国立卫生研究院ExPorter;BioRxiv;PMC文章;美国专利商标局背景资料;peS2o;全球法规;CORE;PG-19;DOAB CC BY & CC BY-SA子集;NDLTDQwen3-235B-A22B-Instruct-2507;gpt-oss-120b
来自DeepSeek-R1-0528的合成KernelBook文本未公开KernelBookDeepSeek-R1-0528
来自Qwen3-235B-A22B-Thinking-2507和Qwen3-Next-80B-A3B-Thinking的合成工具调用文本未公开ToolBench;glaive-function-calling-v2;APIGen函数调用;Nemotron-Personas-USAQwen3-235B-A22B-Thinking-2507;Qwen3-Next-80B-A3B-Thinking
来自gpt-oss-120b、Mixtral-8x22B-Instruct-v0.1、Qwen3-235B-A22B-Instruct-2507和Qwen3-235B-A22B-Thinking-2507的合成对话文本未公开C4;LMSYS-Chat-1M;ShareGPT;GSM8K;PRM800K;FinQA;WikiTableQuestions;谜语;glaive-function-calling-v2;SciBench;tigerbot-kaggle-leetcodesolutions-en-2k;OpenBookQA;高级推理基准;软件遗产;可汗学院数学关键词;WildChat-1M;Nemotron-Personas-USAgpt-oss-120b;Mixtral-8x22B-Instruct-v0.1;Qwen3-235B-A22B-Instruct-2507;Qwen3-235B-A22B-Thinking-2507
来自Qwen3-235B-A22B-Instruct-2507的合成长上下文文本未公开CORE;PG-19;DOAB CC BY & CC BY-SA子集;NDLTDQwen3-235B-A22B-Instruct-2507
来自gpt-oss-120b、DeepSeek-R1-0528、Qwen3-32B和Qwen3-235B-A22B-Thinking-2507的合成工具使用交互式智能体文本未公开NVIDIA内部gpt-oss-120b;DeepSeek-R1-0528;Qwen3-32B;和Qwen3-235B-A22B-Thinking-2507
来自Qwen3-235B-A22B-Thinking-2507的合成STEM文本未公开ICHO-IPH0;Physics Big;Scale HLE;OpenMathReasoning;OpenCodeReasoningQwen3-235B-A22B-Thinking-2507
来自Qwen3-Coder-480B-A35B-Instruct和Kimi-K2-Thinking的合成DocFinQA和SWE-smith文本未公开DocFinQA;SWE-smithQwen3-Coder-480B-A35B-Instruct;Kimi-K2-Thinking
来自gpt-oss-120b和Qwen2.5-32B-Instruct的合成数学文本未公开-gpt-oss-120b;Qwen2.5-32B-Instruct
来自gpt-oss-120b的合成Essential-Web文本未公开Essential-Webgpt-oss-120b
来自gpt-oss-120b的合成Scale HLE文本未公开Scale HLEgpt-oss-120b
来自gpt-oss-120b的合成CDQuestions文本未公开CDQuestionsgpt-oss-120b
来自gpt-oss-120b的合成Stack Exchange文本未公开Stack Exchangegpt-oss-120b
来自gpt-oss-120b和Qwen2.5-32B-Instruct的合成GPQA文本未公开Stack Exchangegpt-oss-120b;Qwen2.5-32B-Instruct
来自gpt-oss-120b的合成Vedantu文本未公开Vedantugpt-oss-120b
来自Qwen3-Coder-480B-A35B-Instruct的合成SWE-Gym和R2E-Gym-Subset文本未公开SWE-Gym;R2E-Gym-SubsetQwen3-Coder-480B-A35B-Instruct
来自Qwen3-Coder-480B-A35B-Instruct的合成SWE-Gym文本未公开SWE-GymQwen3-Coder-480B-A35B-Instruct
来自DeepSeek-R1-0528的合成SWE-Gym和R2E-Gym-Subset文本未公开SWE-Gym;R2E-Gym-SubsetDeepSeek-R1-0528
来自gpt-oss-120b、Qwen3-235B-A22B-Instruct-2507和Qwen3-235B-A22B-Thinking-2507的合成HelpSteer、LMSYS-Chat-1M和Nemotron-Personas-USA文本未公开HelpSteer2;HelpSteer3;LMSYS-Chat-1M;Nemotron-Personas-USAgpt-oss-120b;Qwen3-235B-A22B-Instruct-2507;Qwen3-235B-A22B-Thinking-2507
来自Qwen3-30B-A3B-Instruct-2507、Qwen3-30B-A3B-Thinking-2507、Qwen3-235B-A22B-Instruct-2507和Qwen3-235B-A22B-Thinking-2507的合成结构化输出文本未公开-Qwen3-30B-A3B-Instruct-2507;Qwen3-30B-A3B-Thinking-2507;Qwen3-235B-A22B-Instruct-2507;Qwen3-235B-A22B-Thinking-2507
来自Qwen3-235B-A22B和DeepSeek-R1-0528的合成搜索STEM MCQ文本未公开-Qwen3-235B-A22B;DeepSeek-R1-0528
来自DeepSeek-R1-0528的合成搜索STEM OPENQ文本未公开-DeepSeek-R1-0528
来自Qwen2.5-32B-Instruct和DeepSeek-R1-0528的合成OpenSTEM文本未公开-Qwen2.5-32B-Instruct;DeepSeek-R1-0528
来自Qwen2.5-32B-Instruct和DeepSeek-R1-0528的合成MCQ文本未公开-Qwen2.5-32B-Instruct;DeepSeek-R1-0528
来自DeepSeek-R1-0528的合成MCQ10文本未公开-DeepSeek-R1-0528
来自Qwen3-235B-A22B、DeepSeek-R1-0528和Qwen3-235B-A22B-Instruct-2507的合成MCQ4文本未公开-Qwen3-235B-A22B;DeepSeek-R1-0528;Qwen3-235B-A22B-Instruct-2507
来自gpt-oss-120b和Qwen2.5-32B-Instruct的合成OpenMathReasoning文本未公开OpenMathReasoninggpt-oss-120b;Qwen2.5-32B-Instruct
来自DeepSeek-R1-0528的合成离线搜索MCQA HLE文本未公开-DeepSeek-R1-0528
来自Qwen3-235B-A22B和DeepSeek-R1-0528的合成离线搜索MCQA GPQA文本未公开-Qwen3-235B-A22B;DeepSeek-R1-0528
来自QwQ-32B、Qwen3-30B-A3B、Qwen3-235B-A22B、Qwen3-235B-A22B-Instruct-2507、Mistral-Small-3.1-24B-Instruct-2503、Mistral-Small-3.2-24B-Instruct-2506、MiniMax-M1-80k、MiniMax-M1-40k、Kimi-K2-Instruct、DeepSeek-V3-0324、DeepSeek-R1-0528的合成人类偏好文本未公开-QwQ-32B;Qwen3-30B-A3B;Qwen3-235B-A22B;Qwen3-235B-A22B-Instruct-2507;Mistral-Small-3.1-24B-Instruct-2503;Mistral-Small-3.2-24B-Instruct-2506;MiniMax-M1-80k;MiniMax-M1-40k;Kimi-K2-Instruct;DeepSeek-V3-0324;DeepSeek-R1-0528
来自DeepSeek-R1、gemma-2-2b-it、gemma-3-27b-it、gpt-oss-20b、gpt-oss-120b、Mistral-7B-Instruct-v0.3、Mixtral-8x22B-Instruct-v0.1、Nemotron-4-340B-Instruct、NVIDIA-Nemotron-Nano-9B-v2、Phi-4-mini-instruct、Phi-3-small-8k-instruct、Phi-3-medium-4k-instruct、Qwen3-235B-A22B、QwQ-32B的合成WildChat-1M和arena-human-preference-140k文本未公开WildChat-1M;arena-human-preference-140kDeepSeek-R1;gemma-2-2b-it;gemma-3-27b-it;gpt-oss-20b;gpt-oss-120b;Mistral-7B-Instruct-v0.3;Mixtral-8x22B-Instruct-v0.1;Nemotron-4-340B-Instruct;NVIDIA-Nemotron-Nano-9B-v2;Phi-4-mini-instruct;Phi-3-small-8k-instruct;Phi-3-medium-4k-instruct;Qwen3-235B-A22B;QwQ-32B
来自DeepSeek-R1-0528、gpt-oss-120b、DeepSeek-R1-Distill-Qwen-7B和Mixtral-8x7B-v0.1的合成安全性文本未公开Nemotron内容安全数据集V2;Gretel合成安全对齐数据集;RedTeam-2K;恶意任务;DeepSeek-R1-0528;gpt-oss-120b;DeepSeek-R1-Distill-Qwen-7B;Qwen3-30B-A3B-Thinking-2507;Qwen3-235B-A22B-Instruct-2507;Mixtral-8x7B-v0.1
来自Qwen3-32B的合成代码文本未公开英语通用爬虫数据;英语通用爬虫数据1.1Qwen3-32B
来自DeepSeek-R1的合成OpenCodeReasoning文本未公开OpenCodeReasoningDeepSeek-R1
来自DeepSeek-R1-0528的合成LIMO文本未公开LIMODeepSeek-R1-0528
来自DeepSeek-R1-0528的合成SCP文本未公开SCP-116KDeepSeek-R1-0528
来自DeepSeek-R1-0528的合成Stack Exchange文本未公开Stack ExchangeDeepSeek-R1-0528
来自Qwen3-30B-A3B的合成通用爬虫数据文本未公开Common CrawlQwen3-30B-A3B
来自Qwen3-30B-A3B的合成维基百科文本未公开维基媒体Qwen3-30B-A3B
来自Qwen3-30B-A3B和Qwen3-235B-A22B-Thinking-2507的合成Essential-Web文本未公开Essential-WebQwen3-30B-A3B;Qwen3-235B-A22B-Thinking-2507
来自Qwen3-30B-A3B、Qwen3-235B-A22B、phi-4的合成教科书数学文本未公开Common Crawl;FineMathQwen3-30B-A3B;Qwen3-235B-A22B;phi-4
来自DeepSeek-R1和DeepSeek-R1-0528的合成数学与代码文本未公开Magicoder-Evol-Instruct-110K;opc-sft-stage2;TACO;OpenCodeReasoning;OpenMathReasoning;NuminaMath CoTDeepSeek-R1;DeepSeek-R1-0528
来自gpt-oss-120b和Qwen3-8B的合成Nemotron-Personas-USA文本未公开Nemotron-Personas-USAgpt-oss-120b;Qwen3-8B

数据集收集周期
Problems in Elementary Mathematics for Home Study2025年4月23日
GSM8K2025年4月23日

评估数据集:

  • 各数据集的数据收集方法:混合:人工、合成
  • 各数据集的标注方法:混合:自动化、人工、合成

推理

  • 引擎:HF、vLLM、llama-cpp、TRT-LLM、SGLang

  • 测试硬件:NVIDIA GeForce RTX、H100 80GB、DGX Spark、Jetson Thor/Orin Nano。

伦理考量

NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持广泛 AI 应用的开发。当按照我们的可信 AI 服务条款下载或使用时,开发人员应与内部模型团队合作,确保该模型满足相关行业和用例的要求,并应对未预见的产品误用问题。

我们建议不要规避模型中包含的任何安全防护措施,除非为您的用例设置了实质上类似的防护措施。有关更多详细信息:安全性和可解释性子卡片。

有关此模型伦理考量的更多详细信息,请参见 Model Card++ 的偏见和隐私子卡片。

请在此处报告安全漏洞或 NVIDIA AI 相关问题。