模型开发者: NVIDIA Corporation
模型日期:
2025年12月 - 2026年1月
数据时效性:
2024年9月
预训练数据的截止日期为2024年9月。
NVIDIA-Nemotron-3-Nano-4B-GGUF 是 NVIDIA-Nemotron-3-Nano-4B-BF16 的量化版本(Q4_K_M),是由 NVIDIA 从头开始训练的小型语言模型(SLM),设计为兼顾推理和非推理任务的统一模型。它通过首先生成推理轨迹,然后给出最终响应来响应用户查询和任务。模型的推理能力可通过系统提示进行控制。如果用户希望模型直接提供最终答案而不展示中间推理过程,可以进行相应配置,不过对于需要推理的较难提示,其准确率会略有下降。相反,允许模型先生成推理轨迹通常能为查询和任务带来更高质量的最终解决方案。
该模型是使用 Nemotron Elastic 框架从 NVIDIA-Nemotron-Nano-9B-v2 压缩而来。父模型 NVIDIA-Nemotron-Nano-9B-v2 的详细信息可参见 (Nemotron-H 技术报告)。该模型采用混合架构,主要由 Mamba-2 和 MLP 层组成,并结合了仅有的四个注意力层。
支持的语言包括:英语。借助 Qwen 进行了优化。
此模型已准备好投入商业使用。
管辖条款:本模型的使用受 NVIDIA Nemotron Open Model License 管辖。
我们在 Reasoning-off 模式下通过以下基准测试对模型进行了评估
| 基准测试 | NVIDIA-Nemotron-3-Nano-4B-BF16 | NVIDIA-Nemotron-3-Nano-4B-FP8 | NVIDIA-Nemotron-3-Nano-4B-Q4_K_M |
|---|---|---|---|
| IFBench-Prompt | 43.2 | 43.88 | 46.9 |
| IFBench-Instruction | 44.2 | 44.78 | 49.6 |
| Orak | 22.9 | 20.72 | 19.8 |
| IFEval-Prompt | 82.8 | 85.77 | 81.5 |
| IFEval-Instruction | 88.0 | 87.53 | 83.9 |
| HaluEval | 62.2 | 62.2 | 62.4 |
| RULER (128k) | 91.1 | 91.0 | 91.2 |
所有评估均使用 NeMo-Skills 和 Orak 完成。对于 Orak,我们在三款游戏(《超级马里奥》《暗黑地牢》和《星露谷物语》)上进行了评估。
NVIDIA-Nemotron-3-Nano-4B 是一款边缘就绪型小型语言模型,适用于边缘平台(Jetson Thor、GeForce RTX、DGX Spark)上的智能体 AI。其主要目标应用场景包括 AI 游戏 NPC(队友/同伴)、本地语音助手(适用于设备、应用程序和游戏)以及物联网自动化。该模型适用于英语和编程语言。
Huggingface 2026年3月16日通过 https://huggingface.co/
我们的模型经过专门设计和优化,可在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件(如 GPU 核心)和软件框架(如 CUDA 库),与纯 CPU 解决方案相比,该模型实现了更快的训练和推理速度。
将基础模型和微调模型集成到 AI 系统中时,需要使用特定用例的数据进行额外测试,以确保安全有效的部署。遵循 V 模型方法论,在单元和系统层面进行迭代测试和验证,对于在部署前降低风险、满足技术和功能要求以及确保符合安全和伦理标准至关重要。
启动兼容 OpenAI 的 API 服务器
./llama-server -hf nvidia/NVIDIA-Nemotron-3-Nano-4B-GGUF:Q4_K_M -c 0 --alias my_model -ngl 999 --port 5000 --host 0.0.0.0特性: NVIDIA-Nemotron-3-Nano-4B 的训练后语料库包含英文和多语言文本(德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语、中文和英语)。我们的来源涵盖多种文档类型,如网页、对话、文章和其他书面材料。语料库涉及的领域包括代码、法律、数学、科学、金融等。我们还包含小部分问答和对齐风格数据,以提高模型准确性。对于上述多个领域,我们使用了合成数据,特别是来自 DeepSeek R1/R1-0528、Qwen3-235B-A22B、Nemotron 4 340B、Qwen2.5-32B-Instruct-AWQ、Qwen2.5-14B-Instruct、Qwen 2.5 72B 的推理轨迹。
有关数据集和合成数据生成方法的更多详细信息,请参见技术报告 NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model。
| 数据集 |
|---|
| Global Regulation |
| Workbench |
英文Common Crawl数据从Common Crawl基金会下载(其爬取详情参见常见问题),包含CC-MAIN-2013-20至CC-MAIN-2025-13的快照。随后,按照Nemotron-CC论文中描述的多种方式对数据进行去重和过滤。
此外,我们从以下三个Common Crawl快照中提取了十五种语言的数据:CC-MAIN-2024-51、CC-MAIN-2025-08、CC-MAIN-2025-18。这十五种语言包括阿拉伯语、中文、丹麦语、荷兰语、法语、德语、意大利语、日语、韩语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语和泰语。由于我们没有可靠的基于多语言模型的质量分类器,因此仅应用了启发式过滤——类似于我们在Nemotron-CC pipeline中对低质量英文数据所做的处理,但对某些效果不佳的语言有选择地移除了部分过滤器。去重操作与Nemotron-CC的方式相同。
GitHub Crawl是使用GitHub REST API和Amazon S3 API收集的。每次爬取都按照各自来源(GitHub或S3)设定的速率限制进行。我们收集原始源代码,随后移除任何不包含在我们的宽松许可证集中的许可证(更多详情请参考技术报告)。
| 数据集 | 模态 | 数据集大小( tokens) | 收集日期 |
|---|---|---|---|
| English Common Crawl | 文本 | 3.360T | 2025年4月8日 |
| Multilingual Common Crawl | 文本 | 812.7B | 2025年5月1日 |
| GitHub Crawl | 文本 | 747.4B | 2025年4月29日 |
| English Common Crawl 1.1 | 文本 | 未披露 | 2025年10月2日 |
| 数据集 | 模态 | 数据集大小( tokens) | 种子数据集 | 用于生成的模型 |
|---|---|---|---|---|
| Synthetic Art of Problem Solving from DeepSeek-R1 | 文本 | 25.5B | Art of Problem Solving; American Mathematics Competitions 8; American Mathematics Competitions 10; | DeepSeek-R1 |
| Synthetic Moral Stories and Social Chemistry from Mixtral-8x22B-v0.1 | 文本 | 327M | social-chemestry-101; Moral Stories | Mixtral-8x22B-v0.1 |
| Synthetic Social Sciences seeded with OpenStax from DeepSeek-V3, Mixtral-8x22B-v0.1, and Qwen2.5-72B | 文本 | 83.6M | OpenStax - CC BY-SA subset | DeepSeek-V3; Mixtral-8x22B-v0.1; Qwen2.5-72B |
| Synthetic Health Sciences seeded with OpenStax from DeepSeek-V3, Mixtral-8x22B-v0.1, and Qwen2.5-72B | 文本 | 9.7M | OpenStax - CC BY-SA subset | DeepSeek-V3; Mixtral-8x22B-v0.1; Qwen2.5-72B |
| Synthetic STEM seeded with OpenStax, Open Textbook Library, and GSM8K from DeepSeek-R1, DeepSeek-V3, DeepSeek-V3-0324, and Qwen2.5-72B | 文本 | 175M | OpenStax - CC BY-SA subset; GSM8K; Open Textbook Library - CC BY-SA & GNU subset | DeepSeek-R1, DeepSeek-V3; DeepSeek-V3-0324; Qwen2.5-72B |
| Nemotron-PrismMath | 文本 | 4.6B | Big-Math-RL-Verified; OpenR1-Math-220k | Qwen2.5-0.5B-instruct, Qwen2.5-72B-Instruct; DeepSeek-R1-Distill-Qwen-32B |
| Synthetic Question Answering Data from Papers and Permissible Books from Qwen2.5-72B-Instruct | 文本 | 350M | arXiv; National Institutes of Health ExPorter; BioRxiv; PMC Article; USPTO Backgrounds; peS2o; Global Regulation; CORE; PG-19; DOAB CC BY & CC BY-SA subset; NDLTD | Qwen2.5-72B-Instruct |
| Synthetic FineMath-4+ Reprocessed from DeepSeek-V3 | 文本 | 9.2B | Common Crawl | DeepSeek-V3 |
| Synthetic FineMath-3+ Reprocessed from phi-4 | 文本 | 27.6B | Common Crawl | phi-4 |
| Synthetic Union-3+ Reprocessed from phi-4 | 文本 | 93.1B | Common Crawl | phi-4 |
| Refreshed Nemotron-MIND from phi-4 | 文本 | 73B | Common Crawl | phi-4 |
| Synthetic Union-4+ Reprocessed from phi-4 | 文本 | 14.12B | Common Crawl | phi-4 |
| Synthetic Union-3+ minus 4+ Reprocessed from phi-4 | 文本 | 78.95B | Common Crawl | phi-4 |
| Synthetic Union-3 Refreshed from phi-4 | 文本 | 80.94B | Common Crawl | phi-4 |
| Synthetic Union-4+ Refreshed from phi-4 | 文本 | 52.32B | Common Crawl | phi-4 |
| Synthetic AGIEval seeded with AQUA-RAT, LogiQA, and AR-LSAT from DeepSeek-V3 and DeepSeek-V3-0324 | 文本 | 4.0B | AQUA-RAT; LogiQA; AR-LSAT | DeepSeek-V3; DeepSeek-V3-0324 |
| Synthetic AGIEval seeded with AQUA-RAT, LogiQA, and AR-LSAT from Qwen3-30B-A3B | 文本 | 4.2B | AQUA-RAT; LogiQA; AR-LSAT | Qwen3-30B-A3B |
| Synthetic Art of Problem Solving from Qwen2.5-32B-Instruct, Qwen2.5-Math-72B, Qwen2.5-Math-7B, and Qwen2.5-72B-Instruct | 文本 | 83.1B | Art of Problem Solving; American Mathematics Competitions 8; American Mathematics Competitions 10; GSM8K; PRM800K | Qwen2.5-32B-Instruct; Qwen2.5-Math-72B; Qwen2.5-Math-7B; Qwen2.5-72B-Instruct |
| Synthetic MMLU Auxiliary Train from DeepSeek-R1 | 文本 | 0.5B | MMLU Auxiliary Train | DeepSeek-R1 |
| Synthetic Long Context Continued Post-Training Data from Papers and Permissible Books from Qwen2.5-72B-Instruct | 文本 | 5.4B | arXiv; National Institutes of Health ExPorter; BioRxiv; PMC Article; USPTO Backgrounds; peS2o; Global Regulation; CORE; PG-19; DOAB CC BY & CC BY-SA subset; NDLTD | Qwen2.5-72B-Instruct |
| Synthetic Common Crawl from Qwen3-30B-A3B and Mistral-Nemo-12B-Instruct | 文本 | 1.949T | Common Crawl | Qwen3-30B-A3B; Mistral-NeMo-12B-Instruct |
| Synthetic Multilingual Data from Common Crawl from Qwen3-30B-A3B | 文本 | 997.3B | Common Crawl | Qwen3-30B-A3B |
| Synthetic Multilingual Data from Wikimedia from Qwen3-30B-A3B | 文本 | 55.1B | Wikimedia | Qwen3-30B-A3B |
| Synthetic OpenMathReasoning from DeepSeek-R1-0528 | 文本 | 1.5M | OpenMathReasoning | DeepSeek-R1-0528 |
| Synthetic OpenCodeReasoning from DeepSeek-R1-0528 | 文本 | 1.1M | OpenCodeReasoning | DeepSeek-R1-0528 |
| Synthetic Science Data from DeepSeek-R1-0528 | 文本 | 1.5M | - | DeepSeek-R1-0528 |
| Synthetic Humanity's Last Exam from DeepSeek-R1-0528 | 文本 | 460K | Humanity's Last Exam | DeepSeek-R1-0528 |
| Synthetic ToolBench from Qwen3-235B-A22B | 文本 | 400K | ToolBench | Qwen3-235B-A22B |
| Synthetic Nemotron Content Safety Dataset V2, eval-safety, Gretel Synthetic Safety Alignment, and RedTeam_2K from DeepSeek-R1-0528 | 文本 | 52K | Nemotron Content Safety Dataset V2; eval-safety; Gretel Synthetic Safety Alignment; RedTeam_2K | DeepSeek-R1-0528 |
| Synthetic HelpSteer from Qwen3-235B-A22B | 文本 | 120K | HelpSteer3; HelpSteer2 | Qwen3-235B-A22B |
| Synthetic Alignment data from Mixtral-8x22B-Instruct-v0.1, Mixtral-8x7B-Instruct-v0.1, and Nemotron-4 Family | 文本 | 400K | HelpSteer2; C4; LMSYS-Chat-1M; ShareGPT52K; tigerbot-kaggle-leetcodesolutions-en-2k; GSM8K; PRM800K; lm_identity (NVIDIA internal); FinQA; WikiTableQuestions; Riddles; ChatQA nvolve-multiturn (NVIDIA internal); glaive-function-calling-v2; SciBench; OpenBookQA; Advanced Reasoning Benchmark; Public Software Heritage S3; Khan Academy Math Keywords | Nemotron-4-15B-Base (NVIDIA internal); Nemotron-4-15B-Instruct (NVIDIA internal); Nemotron-4-340B-Base; Nemotron-4-340B-Instruct; Nemotron-4-340B-Reward; Mixtral-8x7B-Instruct-v0.1; Mixtral-8x22B-Instruct-v0.1 |
| Synthetic LMSYS-Chat-1M from Qwen3-235B-A22B | 文本 | 1M | LMSYS-Chat-1M | Qwen3-235B-A22B |
| Synthetic Multilingual Reasoning data from DeepSeek-R1-0528, Qwen2.5-32B-Instruct-AWQ, and Qwen2.5-14B-Instruct | 文本 | 25M | OpenMathReasoning; OpenCodeReasoning | DeepSeek-R1-0528; Qwen2.5-32B-Instruct-AWQ (translation); Qwen2.5-14B-Instruct (translation); |
| Synthetic Multilingual Reasoning data from Qwen3-235B-A22B and Gemma 3 Post-Trained models | 文本 | 5M | WildChat | Qwen3-235B-A22B; Gemma 3 PT 12B; Gemma 3 PT 27B |
| Tool Calling Data | 文本 | 26.2B | Qwen3-235B-A22B-2507; gpt-oss-120b | |
| Synthetic Essential-Web from QwQ-32B | 文本 | 28.1B | Essential-Web | QwQ-32B |
| Translated Synthetic Crawl | 文本 | 389.9B | Common Crawl | Qwen3-30B-A3B |
| Translated Synthetic Wikipedia | 文本 | 7.9B | Wikimedia | Qwen3-30B-A3B |
| Synthetic Art of Problem Solving from gpt-oss-120b and Qwen2.5-32B-Instruct | 文本 | Undisclosed | Art of Problem Solving; American Mathematics Competitions 8; American Mathematics Competitions 10 | gpt-oss-120b; Qwen2.5-32B-Instruct |
| Synthetic Stack Exchange from gpt-oss-120b and Qwen2.5-32B-Instruct | Text | Undisclosed | Stack Exchange | gpt-oss-120b; Qwen2.5-32B-Instruct |
| Synthetic OpenCodeReasoning from DeepSeek-R1-0528 | Text | Undisclosed | OpenCodeReasoning | DeepSeek-R1-0528 |
| Synthetic HackerRank Coding from DeepSeek-R1-0528 | Text | Undisclosed | HackerRank Coding Dataset | DeepSeek-R1-0528 |
| Synthetic SWE-Gym from Qwen3-Coder-480B-A35B-Instruct | Text | Undisclosed | SWE-Gym | Qwen3-Coder-480B-A35B-Instruct |
| Synthetic Art of Problem Solving and Stack Exchange from gpt-oss-120b, Qwen2.5-32B-Instruct, and Goedel-Prover-V2-32B | Text | Undisclosed | Art of Problem Solving; American Mathematics Competitions 8; American Mathematics Competitions 10; Stack Exchange | gpt-oss-120b; Qwen2.5-32B-Instruct; Goedel-Prover-V2-32B |
| Synthetic Multilingual Science and Code data from DeepSeek-R1, DeepSeek-R1-0528, Qwen2.5-32B-Instruct, and Qwen3-235B-A22B, translated with Qwen2.5-32B-Instruct and Qwen2.5-14B-Instruct | Text | Undisclosed | Stack Exchange; SCP-116K; LIMO; TACO; Code Contest; Codeforces | DeepSeek-R1; DeepSeek-R1-0528; Qwen2.5-32B-Instruct; Qwen3-235B-A22B; |
| Synthetic Safety from DeepSeek-R1-0528, gpt-oss-120b and Mixtral-8x7B-v0.1 | Text | Undisclosed | Nemotron Content Safety Dataset V2; Gretel Synthetic Safety Alignment Dataset; RedTeam-2K; Malicious Tasks; Nemotron-Personas-USA | DeepSeek-R1-0528; gpt-oss-120b; Mixtral-8x7B-v0.1 |
| 来自Qwen3-235B-A22B-Instruct-2507和gpt-oss-120b的合成STEM | 文本 | 未公开 | arXiv;美国国立卫生研究院ExPorter;BioRxiv;PMC文章;美国专利商标局背景资料;peS2o;全球法规;CORE;PG-19;DOAB CC BY & CC BY-SA子集;NDLTD | Qwen3-235B-A22B-Instruct-2507;gpt-oss-120b |
| 来自DeepSeek-R1-0528的合成KernelBook | 文本 | 未公开 | KernelBook | DeepSeek-R1-0528 |
| 来自Qwen3-235B-A22B-Thinking-2507和Qwen3-Next-80B-A3B-Thinking的合成工具调用 | 文本 | 未公开 | ToolBench;glaive-function-calling-v2;APIGen函数调用;Nemotron-Personas-USA | Qwen3-235B-A22B-Thinking-2507;Qwen3-Next-80B-A3B-Thinking |
| 来自gpt-oss-120b、Mixtral-8x22B-Instruct-v0.1、Qwen3-235B-A22B-Instruct-2507和Qwen3-235B-A22B-Thinking-2507的合成对话 | 文本 | 未公开 | C4;LMSYS-Chat-1M;ShareGPT;GSM8K;PRM800K;FinQA;WikiTableQuestions;谜语;glaive-function-calling-v2;SciBench;tigerbot-kaggle-leetcodesolutions-en-2k;OpenBookQA;高级推理基准;软件遗产;可汗学院数学关键词;WildChat-1M;Nemotron-Personas-USA | gpt-oss-120b;Mixtral-8x22B-Instruct-v0.1;Qwen3-235B-A22B-Instruct-2507;Qwen3-235B-A22B-Thinking-2507 |
| 来自Qwen3-235B-A22B-Instruct-2507的合成长上下文 | 文本 | 未公开 | CORE;PG-19;DOAB CC BY & CC BY-SA子集;NDLTD | Qwen3-235B-A22B-Instruct-2507 |
| 来自gpt-oss-120b、DeepSeek-R1-0528、Qwen3-32B和Qwen3-235B-A22B-Thinking-2507的合成工具使用交互式智能体 | 文本 | 未公开 | NVIDIA内部 | gpt-oss-120b;DeepSeek-R1-0528;Qwen3-32B;和Qwen3-235B-A22B-Thinking-2507 |
| 来自Qwen3-235B-A22B-Thinking-2507的合成STEM | 文本 | 未公开 | ICHO-IPH0;Physics Big;Scale HLE;OpenMathReasoning;OpenCodeReasoning | Qwen3-235B-A22B-Thinking-2507 |
| 来自Qwen3-Coder-480B-A35B-Instruct和Kimi-K2-Thinking的合成DocFinQA和SWE-smith | 文本 | 未公开 | DocFinQA;SWE-smith | Qwen3-Coder-480B-A35B-Instruct;Kimi-K2-Thinking |
| 来自gpt-oss-120b和Qwen2.5-32B-Instruct的合成数学 | 文本 | 未公开 | - | gpt-oss-120b;Qwen2.5-32B-Instruct |
| 来自gpt-oss-120b的合成Essential-Web | 文本 | 未公开 | Essential-Web | gpt-oss-120b |
| 来自gpt-oss-120b的合成Scale HLE | 文本 | 未公开 | Scale HLE | gpt-oss-120b |
| 来自gpt-oss-120b的合成CDQuestions | 文本 | 未公开 | CDQuestions | gpt-oss-120b |
| 来自gpt-oss-120b的合成Stack Exchange | 文本 | 未公开 | Stack Exchange | gpt-oss-120b |
| 来自gpt-oss-120b和Qwen2.5-32B-Instruct的合成GPQA | 文本 | 未公开 | Stack Exchange | gpt-oss-120b;Qwen2.5-32B-Instruct |
| 来自gpt-oss-120b的合成Vedantu | 文本 | 未公开 | Vedantu | gpt-oss-120b |
| 来自Qwen3-Coder-480B-A35B-Instruct的合成SWE-Gym和R2E-Gym-Subset | 文本 | 未公开 | SWE-Gym;R2E-Gym-Subset | Qwen3-Coder-480B-A35B-Instruct |
| 来自Qwen3-Coder-480B-A35B-Instruct的合成SWE-Gym | 文本 | 未公开 | SWE-Gym | Qwen3-Coder-480B-A35B-Instruct |
| 来自DeepSeek-R1-0528的合成SWE-Gym和R2E-Gym-Subset | 文本 | 未公开 | SWE-Gym;R2E-Gym-Subset | DeepSeek-R1-0528 |
| 来自gpt-oss-120b、Qwen3-235B-A22B-Instruct-2507和Qwen3-235B-A22B-Thinking-2507的合成HelpSteer、LMSYS-Chat-1M和Nemotron-Personas-USA | 文本 | 未公开 | HelpSteer2;HelpSteer3;LMSYS-Chat-1M;Nemotron-Personas-USA | gpt-oss-120b;Qwen3-235B-A22B-Instruct-2507;Qwen3-235B-A22B-Thinking-2507 |
| 来自Qwen3-30B-A3B-Instruct-2507、Qwen3-30B-A3B-Thinking-2507、Qwen3-235B-A22B-Instruct-2507和Qwen3-235B-A22B-Thinking-2507的合成结构化输出 | 文本 | 未公开 | - | Qwen3-30B-A3B-Instruct-2507;Qwen3-30B-A3B-Thinking-2507;Qwen3-235B-A22B-Instruct-2507;Qwen3-235B-A22B-Thinking-2507 |
| 来自Qwen3-235B-A22B和DeepSeek-R1-0528的合成搜索STEM MCQ | 文本 | 未公开 | - | Qwen3-235B-A22B;DeepSeek-R1-0528 |
| 来自DeepSeek-R1-0528的合成搜索STEM OPENQ | 文本 | 未公开 | - | DeepSeek-R1-0528 |
| 来自Qwen2.5-32B-Instruct和DeepSeek-R1-0528的合成OpenSTEM | 文本 | 未公开 | - | Qwen2.5-32B-Instruct;DeepSeek-R1-0528 |
| 来自Qwen2.5-32B-Instruct和DeepSeek-R1-0528的合成MCQ | 文本 | 未公开 | - | Qwen2.5-32B-Instruct;DeepSeek-R1-0528 |
| 来自DeepSeek-R1-0528的合成MCQ10 | 文本 | 未公开 | - | DeepSeek-R1-0528 |
| 来自Qwen3-235B-A22B、DeepSeek-R1-0528和Qwen3-235B-A22B-Instruct-2507的合成MCQ4 | 文本 | 未公开 | - | Qwen3-235B-A22B;DeepSeek-R1-0528;Qwen3-235B-A22B-Instruct-2507 |
| 来自gpt-oss-120b和Qwen2.5-32B-Instruct的合成OpenMathReasoning | 文本 | 未公开 | OpenMathReasoning | gpt-oss-120b;Qwen2.5-32B-Instruct |
| 来自DeepSeek-R1-0528的合成离线搜索MCQA HLE | 文本 | 未公开 | - | DeepSeek-R1-0528 |
| 来自Qwen3-235B-A22B和DeepSeek-R1-0528的合成离线搜索MCQA GPQA | 文本 | 未公开 | - | Qwen3-235B-A22B;DeepSeek-R1-0528 |
| 来自QwQ-32B、Qwen3-30B-A3B、Qwen3-235B-A22B、Qwen3-235B-A22B-Instruct-2507、Mistral-Small-3.1-24B-Instruct-2503、Mistral-Small-3.2-24B-Instruct-2506、MiniMax-M1-80k、MiniMax-M1-40k、Kimi-K2-Instruct、DeepSeek-V3-0324、DeepSeek-R1-0528的合成人类偏好 | 文本 | 未公开 | - | QwQ-32B;Qwen3-30B-A3B;Qwen3-235B-A22B;Qwen3-235B-A22B-Instruct-2507;Mistral-Small-3.1-24B-Instruct-2503;Mistral-Small-3.2-24B-Instruct-2506;MiniMax-M1-80k;MiniMax-M1-40k;Kimi-K2-Instruct;DeepSeek-V3-0324;DeepSeek-R1-0528 |
| 来自DeepSeek-R1、gemma-2-2b-it、gemma-3-27b-it、gpt-oss-20b、gpt-oss-120b、Mistral-7B-Instruct-v0.3、Mixtral-8x22B-Instruct-v0.1、Nemotron-4-340B-Instruct、NVIDIA-Nemotron-Nano-9B-v2、Phi-4-mini-instruct、Phi-3-small-8k-instruct、Phi-3-medium-4k-instruct、Qwen3-235B-A22B、QwQ-32B的合成WildChat-1M和arena-human-preference-140k | 文本 | 未公开 | WildChat-1M;arena-human-preference-140k | DeepSeek-R1;gemma-2-2b-it;gemma-3-27b-it;gpt-oss-20b;gpt-oss-120b;Mistral-7B-Instruct-v0.3;Mixtral-8x22B-Instruct-v0.1;Nemotron-4-340B-Instruct;NVIDIA-Nemotron-Nano-9B-v2;Phi-4-mini-instruct;Phi-3-small-8k-instruct;Phi-3-medium-4k-instruct;Qwen3-235B-A22B;QwQ-32B |
| 来自DeepSeek-R1-0528、gpt-oss-120b、DeepSeek-R1-Distill-Qwen-7B和Mixtral-8x7B-v0.1的合成安全性 | 文本 | 未公开 | Nemotron内容安全数据集V2;Gretel合成安全对齐数据集;RedTeam-2K;恶意任务; | DeepSeek-R1-0528;gpt-oss-120b;DeepSeek-R1-Distill-Qwen-7B;Qwen3-30B-A3B-Thinking-2507;Qwen3-235B-A22B-Instruct-2507;Mixtral-8x7B-v0.1 |
| 来自Qwen3-32B的合成代码 | 文本 | 未公开 | 英语通用爬虫数据;英语通用爬虫数据1.1 | Qwen3-32B |
| 来自DeepSeek-R1的合成OpenCodeReasoning | 文本 | 未公开 | OpenCodeReasoning | DeepSeek-R1 |
| 来自DeepSeek-R1-0528的合成LIMO | 文本 | 未公开 | LIMO | DeepSeek-R1-0528 |
| 来自DeepSeek-R1-0528的合成SCP | 文本 | 未公开 | SCP-116K | DeepSeek-R1-0528 |
| 来自DeepSeek-R1-0528的合成Stack Exchange | 文本 | 未公开 | Stack Exchange | DeepSeek-R1-0528 |
| 来自Qwen3-30B-A3B的合成通用爬虫数据 | 文本 | 未公开 | Common Crawl | Qwen3-30B-A3B |
| 来自Qwen3-30B-A3B的合成维基百科 | 文本 | 未公开 | 维基媒体 | Qwen3-30B-A3B |
| 来自Qwen3-30B-A3B和Qwen3-235B-A22B-Thinking-2507的合成Essential-Web | 文本 | 未公开 | Essential-Web | Qwen3-30B-A3B;Qwen3-235B-A22B-Thinking-2507 |
| 来自Qwen3-30B-A3B、Qwen3-235B-A22B、phi-4的合成教科书数学 | 文本 | 未公开 | Common Crawl;FineMath | Qwen3-30B-A3B;Qwen3-235B-A22B;phi-4 |
| 来自DeepSeek-R1和DeepSeek-R1-0528的合成数学与代码 | 文本 | 未公开 | Magicoder-Evol-Instruct-110K;opc-sft-stage2;TACO;OpenCodeReasoning;OpenMathReasoning;NuminaMath CoT | DeepSeek-R1;DeepSeek-R1-0528 |
| 来自gpt-oss-120b和Qwen3-8B的合成Nemotron-Personas-USA | 文本 | 未公开 | Nemotron-Personas-USA | gpt-oss-120b;Qwen3-8B |
| 数据集 | 收集周期 |
|---|---|
| Problems in Elementary Mathematics for Home Study | 2025年4月23日 |
| GSM8K | 2025年4月23日 |
引擎:HF、vLLM、llama-cpp、TRT-LLM、SGLang
测试硬件:NVIDIA GeForce RTX、H100 80GB、DGX Spark、Jetson Thor/Orin Nano。
NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持广泛 AI 应用的开发。当按照我们的可信 AI 服务条款下载或使用时,开发人员应与内部模型团队合作,确保该模型满足相关行业和用例的要求,并应对未预见的产品误用问题。
我们建议不要规避模型中包含的任何安全防护措施,除非为您的用例设置了实质上类似的防护措施。有关更多详细信息:安全性和可解释性子卡片。