BAAI/OpenSeek-Mid-v1
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

OpenSeek-Mid-v1

OpenSeek-Mid-v1 是一个拥有106.1亿参数的语言模型,它通过两阶段模型扩展流程从 Qwen3-4B-Base 发展而来,并仅在2万亿 tokens 的完全开源数据上进行训练。

尽管参数数量减少25% 且训练数据减少18倍,但在多项基准测试中,OpenSeek-Mid-v1 达到或超越了 Qwen3-14B-Base 的性能。

results_all

亮点

  • 模型扩展,非从零训练:通过宽度扩展 + 部分深度堆叠从 Qwen3-4B 发展而来,继承了种子模型的学习表征。
  • 极致数据效率:仅用2万亿 tokens 的训练数据(较 Qwen3-14B-Base 的约36万亿 tokens 减少18倍),即可达到其性能水平。
  • Muon 优化器:光谱白化技术确保扩展维度得到有效利用,在模型扩展场景下比 AdamW 带来显著性能提升。
  • 完全开源数据:所有训练数据均来自公开可用数据集(NemotronCC-v2、Stack-Edu、Dolmino、CCI 等)。

架构

规格数值
参数数量106.1亿
层数56
隐藏层大小 (d_model)2560
FFN 中间层大小 (d_FFN)19456
注意力头数32
KV 头数8
序列长度8192
词汇表大小与 Qwen3-4B 相同

扩展流程

Qwen3-4B (4.02B, 36L)
    │  Width expansion (d_FFN: 9728 → 19456, SNR=10dB)
    ▼
Width-Expanded (7.10B, 36L)
    │  Partial depth stacking (layers 14–34 × 2)
    ▼
OpenSeek-Mid-v1 (10.61B, 56L)
    │  Continual pretraining with Muon (2T tokens)
    ▼
Final Model

训练

训练配置

参数值
优化器Muon
序列长度8192
全局批次大小2048 个序列
峰值学习率1e-4
学习率调度带线性预热的余弦调度
预热步数1000
权重衰减0.1
训练框架FlagScale (FlagOS)
总训练 tokens~2.06T

阶段 1:广泛知识获取(1.36T tokens)

阶段 1 数据混合

类别占比Tokens (B)
网络数据42%~571B
数学20%~272B
代码20%~272B
理工科(STEM)15%~204B
多语言3%~41B

阶段 2:能力专项提升(0.70T tokens)

阶段 2 数据混合

类别占比Tokens (B)与阶段 1 相比的变化
网络数据35%~245B-7%
数学20%~140B—
代码24%~168B+4%
理工科(STEM)18%~126B+3%
多语言3%~21B—

详细数据集构成

阶段 1(%)和阶段 2(%)表示每个数据集在相应阶段内的采样权重。“—”表示该数据集未在该阶段使用。

网络数据

数据集Tokens (B)阶段 1 (%)阶段 2 (%)
Nemotron-CC-v2-HQ-Syn798.4123.2419.36
Nemotron-CC-v2-Diverse-QA(×5 分片)340.819.928.26
Nemotron-CC-v2-HQ(×5 分片)303.828.847.36
dolmino-mix-1124-wiki3.820.150.18
dolmino-mix-1124-stackexchange1.300.050.06

数学

数据集Tokens (B)阶段 1 (%)阶段 2 (%)
Nemotron-SFT-MATH207.4611.7011.70
Nemotron-CC-Math-v1-4plus-MIND74.344.194.19
Nemotron-CC-Math-v1-4plus53.373.013.01
Dolmino-math11.170.630.63
OpenMathInstruct-25.300.300.30
OpenMathReasoning-4k2.480.140.14
NuminaMath-1.50.380.020.02

代码

数据集Tokens (B)阶段 1 (%)阶段 2 (%)
Nemotron-Pretraining-Code-v1-Syn171.539.0510.86
Nemotron-SFT-Code57.473.033.64
stack-edu-Java31.701.061.27
stack-edu-Markdown26.640.380.45
stack-edu-Python18.271.541.85
stack-edu-Cpp12.621.111.33
stack-edu-JavaScript8.991.001.20
stack-edu-SQL8.230.370.44
github-issue8.460.250.30
stack-edu-PHP7.430.250.30
stack-edu-CSharp7.260.370.44
stack-edu-C4.800.430.52
stack-edu-Shell2.600.010.01
stack-edu-TypeScript2.510.180.22
OpenCodeInstruct1.59—0.10
stack-edu-Swift1.530.060.07
stack-edu-Rust1.450.050.06
stack-edu-Go1.420.030.04
kaggle-notebooks1.420.650.78
stack-edu-Ruby1.360.010.01
OpenCodeReasoning-2-cpp-4k0.760.040.05
OpenCodeReasoning-2-python-4k0.580.030.04
github-code-review0.32—0.02

理工科(STEM)与科学

数据集Tokens (B)阶段 1 (%)阶段 2 (%)
Nemotron-Pretraining-Specialized-v1(×4 分片)276.8310.5512.73
Nemotron-Pretraining-SFT-v1-General86.933.314.00
dolmino-mix-1124-pes2o60.190.500.50
Nemotron-Pretraining-Specialized-v1.19.04—0.42
OpenScienceReasoning-2-4k1.720.070.08
MegaScience0.980.040.04

多语言

数据集Tokens (B)阶段 1 (%)阶段 2 (%)
Nemotron-CC-v2-Translated-Diverse-QA135.801.741.74
CCI4_0-Zh-High98.761.261.26

检查点融合

最终模型是5个互补检查点的加权平均值,每个检查点都因其独特优势而被选中:

检查点权重作用关键指标
iter 1699840.30代码锚点MBPP 78.84
iter 2191360.25推理主导GPQA-d 44.39
iter 1740800.15代码峰值EvalPlus 68.88
iter 1904640.15数学桥梁GPQA-d 42.86
iter 2170880.15通用增强BBH 82.84

评估结果

所有评估均通过lm-eval-harness进行,设置保持一致。

基准测试Qwen3-4BQwen3-8BQwen3.5-9BNemotron-12BGemma3-12BQwen3-14BOpenSeek-Mid-v1
训练 tokens36T36T36T20T12T36T2T
MMLU(5-shot)72.7276.5778.6478.0773.2880.5779.31
MMLU-Pro(5-shot CoT)49.3152.3558.4857.5741.1656.0066.57
AGIEval-en(0-shot)45.9249.0945.1549.2044.8952.8352.18
BBH(3-shot CoT)71.2077.7582.2369.6573.7878.7182.55
HellaSwag(5-shot)75.3679.4781.0483.1383.4582.0581.81
Winogrande(5-shot)71.9077.5176.8079.2480.3579.4079.24
PIQA(5-shot)78.8981.3981.6182.9781.8083.3083.19
OpenBookQA(5-shot)45.0049.0050.0050.2049.6050.8049.80
ARC-C(0-shot)51.1956.9156.8360.5864.6859.3062.12
GSM8K(4-shot CoT)84.3186.7385.6081.4372.0290.0789.16
MATH(4-shot CoT)50.1652.4856.1657.3043.3059.7065.88
GPQA-diamond(3-shot CoT)32.6535.7137.7631.1223.4737.7645.41
MBPP(0-shot)73.8175.6677.5173.8173.2884.9276.19
EvalPlus 平均值(0-shot)63.9667.9559.5461.2053.4873.4166.45
通用平均值62.3966.6767.8665.0460.9869.2270.75
所有平均值61.8865.6166.2465.3961.3269.2069.99
  • 通用平均值:知识、推理和常识类基准测试的平均值(MMLU、MMLU-Pro、AGIEval-en、BBH、HellaSwag、Winogrande、PIQA、OpenBookQA、ARC-C)。
  • 所有平均值:上述所有基准测试的平均值,包括数学、STEM和代码类(+ GSM8K、MATH、GPQA-diamond、MBPP、EvalPlus 平均值)。

引用

如果您发现本研究工作有帮助,请引用:

@misc{openseek-mid-v1,
  title={OpenSeek-Mid-v1: Efficient Language Model Scaling via Seed Model Expansion},
  year={2026},
  note={Technical report coming soon}
}

致谢

本项目基于开源数据和工具构建而成,包括 NemotronCC-v2、Stack-Edu、Dolmino、CCI、OpenMathInstruct、OpenCodeReasoning 以及 FlagOS。