HuggingFace镜像/Darwin-35B-A3B-Opus
模型介绍文件和版本分析
下载使用量0

Darwin-35B-A3B-Opus

Darwin-35B-A3B-Opus

Model Space 35B Model 35B Space FINAL Bench ALL Bench

35B MoE(3B 激活)| GPQA Diamond 90.0%(父模型 84.2%,母模型 85.0%)| MMMLU 85.0% | 多模态 | 201 种语言 | 262K 上下文 | 147.8 tok/s | Apache 2.0


技术定义

在描述方法之前,我们先定义本文档中使用的术语。这些并非隐喻,而是指特定的、可测量的量。

术语定义测量方式
模型 MRI专家激活模式和层重要性的层级分析1K 样本校准集、每层专家激活频率、路由熵、探针余弦距离
失效专家路由器极少选择的 MoE 专家在校准数据集上的激活频率 < 5%
路由熵路由器 softmax 分布的香农熵H = -sum(p_i * log2(p_i))。256 选 8 配置的健康范围:3.0-4.5 比特
专家激活频率路由器对每个专家的选择率1K 样本中每个专家的计数,归一化为百分比
MRI 引导融合基于父模型诊断结果的逐块融合比例失效专家数量多的层分配更高的供体权重;健康层保留受体权重
健康检查融合后的结构验证逐层重要性比较:子模型与两个父模型。标记干扰或功能损失
黄金层对目标能力具有最高测量重要性的层通过峰值探针余弦距离确定(例如,推理能力的 L38 层)

基准测试结果

GPQA Diamond(198 个问题,研究生水平推理)

模型准确率多模态能力架构
Darwin-35B-A3B-Opus(子模型)90.0%图像/视频Qwen3.5-35B-A3B
母模型(Jackrong Claude 4.6 Opus Distilled)85.0%纯文本训练Qwen3.5-35B-A3B(相同)
父模型(Qwen3.5-35B-A3B 官方版)84.2%图像/视频Qwen3.5-35B-A3B

评估方式:SGLang,上下文长度 32768,温度系数 0,贪婪解码,官方 GPQA 提示格式

MMMLU(多语言知识,29 种语言)

模型准确率
Darwin-35B-A3B-Opus(子模型)85.0%
父模型(Qwen3.5-35B-A3B 官方版)85.2%
  • GPQA 对比父模型:相对提升 +6.9%
  • GPQA 对比母模型:相对提升 +5.9%
  • MMMLU:保持父模型级别的多语言知识(85.0% vs 85.2%)

父模型与母模型

父母模型均采用完全相同的 Qwen3.5-35B-A3B 架构(40 层、256 个专家、GDN+MoE 混合模式)。母模型是在同一基座上进行的 LoRA 有监督微调(SFT),并非不同的架构。“纯文本”指的是训练数据(Claude 4.6 Opus 推理链),而非模型结构。

角色模型架构训练方式
父模型Qwen/Qwen3.5-35B-A3BQwen3.5-35B-A3B原始预训练 + 人类反馈强化学习(RLHF)
母模型Jackrong/Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-DistilledQwen3.5-35B-A3B(相同)使用纯文本 Claude 推理链进行 LoRA 有监督微调

方法:Darwin V5

与现有工具的关系

Darwin V5 使用 mergekit 作为其合并后端。我们并未声称发明了进化式合并——mergekit 的 evolve 功能已具备此能力。Darwin 的创新之处在于其包含三个阶段的诊断流程,该流程通过合并前的性能分析和合并后的验证对 mergekit 进行了封装。

流程

Standard mergekit evolve:
  Random initial params --> Evolve --> Best score

Darwin V5:
  Phase 0: Profile both parents (40 layers x 256 experts)
      |    Measure: expert activation frequency, routing entropy,
      |    probe cosine distance per layer
      v
  Phase 1: Evolution with diagnostic-informed initial genome
      |    Search space constrained by dead expert map + layer importance
      v
  Phase 2: mergekit DARE-TIES merge + benchmark evaluation
      |    (same merge backend as standard mergekit)
      v
  Phase 3: Profile the child, compare against both parents
      |    Detect: interference, function loss, dead expert inheritance
      v
  Final model

Darwin V5 相比标准 mergekit evolve 的新增功能

功能mergekit evolveDarwin V5
合并后端mergekitmergekit(相同)
进化算法CMA-ES / 随机搜索带有诊断信息初始种群的 CMA-ES
合并前父模型分析无专家激活频率、路由熵、40 层 x 256 嵌入的探针余弦距离
初始搜索空间完整参数空间受父模型诊断结果约束
失效专家感知无检测失效专家,调整密度进行补偿
合并后验证仅基准分数逐层子模型与父模型对比
故障诊断“分数下降”“L23 干扰:子模型重要性为父模型的 2.3 倍,注意力头存在权重冲突”

诊断如何改变合并过程

无诊断(V4 盲进化):

  • ratio=0.481,attn=0.168,ffn=0.841
  • 所有 40 层参数统一

有诊断(V5):

  • L0-L37:t=0.599(母模型 60%),母模型路由
  • L38:t=0.900(母模型 90%),母模型路由 — 通过探针余弦距离识别为推理核心
  • L39:t=0.534(父模型 47%),父模型路由 — 保留输出/多模态路由

诊断分析发现 L38 在 REASONING 和 CODE 探针上具有最高余弦距离。这为逐块策略提供了依据,而无需依赖盲搜索来发现这一点。


父模型诊断

母模型:专家激活分析

Mother MoE Health

指标值解读
路由熵所有层均 ~1.0健康 — 专家在活跃专家间均匀分布
失效专家百分比中间层为 50-65%LoRA SFT 仅更新参数子集;多模态/多语言专家变得不活跃
专家相似度0.001-0.008健康 — 留存专家保持多样性

Mother Expert Utilization

Mother Probe Cosine Distance

L34-L38 在 REASONING、CODE、LOGIC 探针上显示出高余弦距离 — 这是 Claude 蒸馏集中其推理模式的区域。

父模型:基准配置文件

Father MoE Health

Father Expert Utilization

Father Layer Importance by Probe

父模型在全部40层中展现出均匀的专家激活状态——所有专家均处于活跃状态。这使其非常适合作为母模型非活跃专家槽位的供体。

父母模型对比

Parent A vs B Layer Advantage

  • 数值高于零:父模型表现更强——L0-L5(嵌入层/早期层)
  • 数值低于零:母模型表现更强——L5-L35持续保持优势
  • L34-L38:母模型在REASONING和CODE探针上达到峰值
  • L39:父模型恢复优势——输出层

此优势图谱直接为3块合并方案提供了依据。


合并配置

MRI-Guided Genome

Merge Ratio per Layer

# Darwin V5 diagnostic-guided layer-wise merge
# Method: DARE-TIES via mergekit
# Genome: ratio=0.800 attn=0.320 ffn=0.590 density=0.799

L0-L37:  t=0.5988 (Mother 60%) — router from Mother
L38:     t=0.9000 (Mother 90%) — reasoning core
L39:     t=0.5336 (Father 47%) — router from Father (output routing)
参数V4(盲测版)V5(引导版)调整依据
global_ratio0.4810.800母模型权重占比提升——诊断结果确认其推理层质量优异
attn_ratio0.1680.320增加母模型注意力占比——探针数据显示推理过程集中于注意力模式
ffn_ratio0.8410.590更为保守——父模型的FFN专家填补无效槽位
density_b0.9710.799降低——补偿母模型50-65%的无效专家

合并后健康检查

Darwin Health Check

子模型与双亲模型的逐层重要性对比:

  • 第0层(嵌入层):子模型0.42,双亲模型0.35-0.50。无干扰。
  • 第1-33层:三者均接近零。MoE中间层的正常现象。
  • 第34-39层:重要性上升。子模型达到或超过双亲模型——推理能力迁移已确认。
  • 第39层(输出层):子模型0.48,与双亲模型持平。输出功能完好。

未检测到干扰。未检测到功能损失。


继承能力

来自父模型(Qwen3.5-35B-A3B):

  • 多模态:图像与视频理解
  • 201种语言:多语言覆盖
  • 262K上下文:原生长上下文(可通过YaRN扩展至1M)
  • Gated DeltaNet + MoE架构
  • 多token预测

来自母模型(Claude 4.6 Opus Distilled):

  • </think>标签内的结构化分步推理
  • 编码代理兼容性
  • 工具调用稳定性

性能

指标值
生成速度147.8 tok/s
运行环境单张NVIDIA H100 93GB NVL,SGLang,BF16
配置显存状态
BF16全精度65.5 GiB
单张H100 93GB93 GB舒适
单张A100 80GB80 GB紧张
Q4_K_M量化~18 GiB
单张RTX 4090 24GB24 GB舒适

模型规格

架构Qwen3.5 MoE(Gated DeltaNet + MoE)
总参数35B
每前向传播激活参数3B
层数40
布局10 x (3 x GDN-MoE + 1 x Attention-MoE)
专家数256(8个路由激活 + 1个共享激活)
上下文长度262,144 原生
语言201种
多模态图像与视频
许可证Apache 2.0

使用方法

SGLang(推荐)

python -m sglang.launch_server \
  --model-path FINAL-Bench/Darwin-35B-A3B-Opus \
  --tp 1 \
  --mem-fraction-static 0.90 \
  --context-length 32768 \
  --trust-remote-code

vLLM

vllm serve FINAL-Bench/Darwin-35B-A3B-Opus \
  --trust-remote-code \
  --enforce-eager

转换器

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained(
    "FINAL-Bench/Darwin-35B-A3B-Opus",
    trust_remote_code=True,
    use_fast=True,
)
model = AutoModelForCausalLM.from_pretrained(
    "FINAL-Bench/Darwin-35B-A3B-Opus",
    dtype="bfloat16",
    device_map="auto",
    trust_remote_code=True,
)

进化详情

引擎Darwin V5(进化合并 + 层级诊断)
合并后端mergekit(DARE-TIES)
进化过程CMA-ES,第一阶段(200步代理)+ 第二阶段(30步真实基准测试)
最终真实得分0.8405
合并时间181.6秒
合并提交109838c2
基础设施4 × NVIDIA H100 93GB NVL

致谢

  • 韩国政府 — GPU支持计划研究资助
  • Qwen Team — Qwen3.5-35B-A3B基础架构
  • Jackrong — Claude 4.6 Opus推理蒸馏模型
  • mergekit — 合并后端基础设施
  • nohurry、TeichAI — 蒸馏数据集

引用

@misc{vidraft_darwin_35b_opus,
  title        = {Darwin-35B-A3B-Opus: Diagnostic-Guided Evolutionary Merge},
  author       = {VIDRAFT},
  year         = {2026},
  publisher    = {Hugging Face},
  howpublished = {\url{https://huggingface.co/FINAL-Bench/Darwin-35B-A3B-Opus}}
}

常见问题

Darwin V5 与 mergekit evolve 有何区别? Darwin V5 以 mergekit 作为其合并后端。其新增功能是一个三阶段诊断流程:(1)合并前父模型分析,在 40 层 x 256 个专家的范围内测量专家激活频率、路由熵和探针余弦距离;(2)利用诊断信息初始化种群并进行约束搜索空间的进化;(3)合并后子模型验证,将层重要性与双亲模型进行比较。标准的 mergekit evolve 不包含阶段 1 和阶段 3。
什么是“失效专家(Dead Experts)”? 在 MoE 模型中,每一层都有 256 个专家。当一个专家在包含 1K 样本的校准数据集上的激活频率低于 5% 时,该专家被称为“失效”。“母体(Mother)”模型显示有 50-65% 的失效专家,这是因为 LoRA SFT 仅更新参数子集——那些未被纯文本训练数据激活的专家会变得不活跃。
两个父模型的架构是否相同? 是的。两者均为 Qwen3.5-35B-A3B——架构、层数和专家结构完全相同。“母体(Mother)”是在相同基础模型上进行的 LoRA SFT。“纯文本(Text-only)”指的是训练数据,而非模型架构。
需要什么 GPU? BF16 精度:H100 93GB(运行流畅)或 A100 80GB(空间紧张)。Q4 量化:RTX 4090 24GB。尽管总参数量为 35B,但每个 token 仅激活 3B 参数。
它支持图像/视频吗? 支持。该功能继承自“父体(Father)”模型。“母体(Mother)”模型在纯文本微调过程中丢失了多模态能力,但此次合并保留了“父体(Father)”模型在第 39 层的多模态路由,并将失效的多模态专家替换为活跃的专家。