OpenSeek-Mid-v1

OpenSeek-Mid-v1 是一个拥有106.1亿参数的语言模型，它通过两阶段模型扩展流程从 Qwen3-4B-Base 发展而来，并仅在2万亿 tokens 的完全开源数据上进行训练。

尽管参数数量减少25% 且训练数据减少18倍，但在多项基准测试中，OpenSeek-Mid-v1 达到或超越了 Qwen3-14B-Base 的性能。

亮点

模型扩展，非从零训练：通过宽度扩展 + 部分深度堆叠从 Qwen3-4B 发展而来，继承了种子模型的学习表征。
极致数据效率：仅用2万亿 tokens 的训练数据（较 Qwen3-14B-Base 的约36万亿 tokens 减少18倍），即可达到其性能水平。
Muon 优化器：光谱白化技术确保扩展维度得到有效利用，在模型扩展场景下比 AdamW 带来显著性能提升。
完全开源数据：所有训练数据均来自公开可用数据集（NemotronCC-v2、Stack-Edu、Dolmino、CCI 等）。

架构

规格	数值
参数数量	106.1亿
层数	56
隐藏层大小 (d_model)	2560
FFN 中间层大小 (d_FFN)	19456
注意力头数	32
KV 头数	8
序列长度	8192
词汇表大小	与 Qwen3-4B 相同

扩展流程

Qwen3-4B (4.02B, 36L)
    │  Width expansion (d_FFN: 9728 → 19456, SNR=10dB)
    ▼
Width-Expanded (7.10B, 36L)
    │  Partial depth stacking (layers 14–34 × 2)
    ▼
OpenSeek-Mid-v1 (10.61B, 56L)
    │  Continual pretraining with Muon (2T tokens)
    ▼
Final Model

训练

训练配置

参数	值
优化器	Muon
序列长度	8192
全局批次大小	2048 个序列
峰值学习率	1e-4
学习率调度	带线性预热的余弦调度
预热步数	1000
权重衰减	0.1
训练框架	FlagScale (FlagOS)
总训练 tokens	~2.06T

阶段 1：广泛知识获取（1.36T tokens）

阶段 1 数据混合

类别	占比	Tokens (B)
网络数据	42%	~571B
数学	20%	~272B
代码	20%	~272B
理工科（STEM）	15%	~204B
多语言	3%	~41B

阶段 2：能力专项提升（0.70T tokens）

阶段 2 数据混合

类别	占比	Tokens (B)	与阶段 1 相比的变化
网络数据	35%	~245B	-7%
数学	20%	~140B	—
代码	24%	~168B	+4%
理工科（STEM）	18%	~126B	+3%
多语言	3%	~21B	—

详细数据集构成

阶段 1（%）和阶段 2（%）表示每个数据集在相应阶段内的采样权重。“—”表示该数据集未在该阶段使用。

网络数据

数据集	Tokens (B)	阶段 1 (%)	阶段 2 (%)
Nemotron-CC-v2-HQ-Syn	798.41	23.24	19.36
Nemotron-CC-v2-Diverse-QA（×5 分片）	340.81	9.92	8.26
Nemotron-CC-v2-HQ（×5 分片）	303.82	8.84	7.36
dolmino-mix-1124-wiki	3.82	0.15	0.18
dolmino-mix-1124-stackexchange	1.30	0.05	0.06

数学

数据集	Tokens (B)	阶段 1 (%)	阶段 2 (%)
Nemotron-SFT-MATH	207.46	11.70	11.70
Nemotron-CC-Math-v1-4plus-MIND	74.34	4.19	4.19
Nemotron-CC-Math-v1-4plus	53.37	3.01	3.01
Dolmino-math	11.17	0.63	0.63
OpenMathInstruct-2	5.30	0.30	0.30
OpenMathReasoning-4k	2.48	0.14	0.14
NuminaMath-1.5	0.38	0.02	0.02

代码

数据集	Tokens (B)	阶段 1 (%)	阶段 2 (%)
Nemotron-Pretraining-Code-v1-Syn	171.53	9.05	10.86
Nemotron-SFT-Code	57.47	3.03	3.64
stack-edu-Java	31.70	1.06	1.27
stack-edu-Markdown	26.64	0.38	0.45
stack-edu-Python	18.27	1.54	1.85
stack-edu-Cpp	12.62	1.11	1.33
stack-edu-JavaScript	8.99	1.00	1.20
stack-edu-SQL	8.23	0.37	0.44
github-issue	8.46	0.25	0.30
stack-edu-PHP	7.43	0.25	0.30
stack-edu-CSharp	7.26	0.37	0.44
stack-edu-C	4.80	0.43	0.52
stack-edu-Shell	2.60	0.01	0.01
stack-edu-TypeScript	2.51	0.18	0.22
OpenCodeInstruct	1.59	—	0.10
stack-edu-Swift	1.53	0.06	0.07
stack-edu-Rust	1.45	0.05	0.06
stack-edu-Go	1.42	0.03	0.04
kaggle-notebooks	1.42	0.65	0.78
stack-edu-Ruby	1.36	0.01	0.01
OpenCodeReasoning-2-cpp-4k	0.76	0.04	0.05
OpenCodeReasoning-2-python-4k	0.58	0.03	0.04
github-code-review	0.32	—	0.02

理工科（STEM）与科学

数据集	Tokens (B)	阶段 1 (%)	阶段 2 (%)
Nemotron-Pretraining-Specialized-v1（×4 分片）	276.83	10.55	12.73
Nemotron-Pretraining-SFT-v1-General	86.93	3.31	4.00
dolmino-mix-1124-pes2o	60.19	0.50	0.50
Nemotron-Pretraining-Specialized-v1.1	9.04	—	0.42
OpenScienceReasoning-2-4k	1.72	0.07	0.08
MegaScience	0.98	0.04	0.04

多语言

数据集	Tokens (B)	阶段 1 (%)	阶段 2 (%)
Nemotron-CC-v2-Translated-Diverse-QA	135.80	1.74	1.74
CCI4_0-Zh-High	98.76	1.26	1.26

检查点融合

最终模型是5个互补检查点的加权平均值，每个检查点都因其独特优势而被选中：

检查点	权重	作用	关键指标
iter 169984	0.30	代码锚点	MBPP 78.84
iter 219136	0.25	推理主导	GPQA-d 44.39
iter 174080	0.15	代码峰值	EvalPlus 68.88
iter 190464	0.15	数学桥梁	GPQA-d 42.86
iter 217088	0.15	通用增强	BBH 82.84

评估结果

所有评估均通过lm-eval-harness进行，设置保持一致。

基准测试	Qwen3-4B	Qwen3-8B	Qwen3.5-9B	Nemotron-12B	Gemma3-12B	Qwen3-14B	OpenSeek-Mid-v1
训练 tokens	36T	36T	36T	20T	12T	36T	2T
MMLU（5-shot）	72.72	76.57	78.64	78.07	73.28	80.57	79.31
MMLU-Pro（5-shot CoT）	49.31	52.35	58.48	57.57	41.16	56.00	66.57
AGIEval-en（0-shot）	45.92	49.09	45.15	49.20	44.89	52.83	52.18
BBH（3-shot CoT）	71.20	77.75	82.23	69.65	73.78	78.71	82.55
HellaSwag（5-shot）	75.36	79.47	81.04	83.13	83.45	82.05	81.81
Winogrande（5-shot）	71.90	77.51	76.80	79.24	80.35	79.40	79.24
PIQA（5-shot）	78.89	81.39	81.61	82.97	81.80	83.30	83.19
OpenBookQA（5-shot）	45.00	49.00	50.00	50.20	49.60	50.80	49.80
ARC-C（0-shot）	51.19	56.91	56.83	60.58	64.68	59.30	62.12
GSM8K（4-shot CoT）	84.31	86.73	85.60	81.43	72.02	90.07	89.16
MATH（4-shot CoT）	50.16	52.48	56.16	57.30	43.30	59.70	65.88
GPQA-diamond（3-shot CoT）	32.65	35.71	37.76	31.12	23.47	37.76	45.41
MBPP（0-shot）	73.81	75.66	77.51	73.81	73.28	84.92	76.19
EvalPlus 平均值（0-shot）	63.96	67.95	59.54	61.20	53.48	73.41	66.45

通用平均值	62.39	66.67	67.86	65.04	60.98	69.22	70.75
所有平均值	61.88	65.61	66.24	65.39	61.32	69.20	69.99

通用平均值：知识、推理和常识类基准测试的平均值（MMLU、MMLU-Pro、AGIEval-en、BBH、HellaSwag、Winogrande、PIQA、OpenBookQA、ARC-C）。
所有平均值：上述所有基准测试的平均值，包括数学、STEM和代码类（+ GSM8K、MATH、GPQA-diamond、MBPP、EvalPlus 平均值）。

引用

如果您发现本研究工作有帮助，请引用：

@misc{openseek-mid-v1,
  title={OpenSeek-Mid-v1: Efficient Language Model Scaling via Seed Model Expansion},
  year={2026},
  note={Technical report coming soon}
}

致谢

本项目基于开源数据和工具构建而成，包括 NemotronCC-v2、Stack-Edu、Dolmino、CCI、OpenMathInstruct、OpenCodeReasoning 以及 FlagOS。