Darwin-35B-A3B-Opus

35B MoE（3B 激活）| GPQA Diamond 90.0%（父模型 84.2%，母模型 85.0%）| MMMLU 85.0% | 多模态 | 201 种语言 | 262K 上下文 | 147.8 tok/s | Apache 2.0

技术定义

在描述方法之前，我们先定义本文档中使用的术语。这些并非隐喻，而是指特定的、可测量的量。

术语	定义	测量方式
模型 MRI	专家激活模式和层重要性的层级分析	1K 样本校准集、每层专家激活频率、路由熵、探针余弦距离
失效专家	路由器极少选择的 MoE 专家	在校准数据集上的激活频率 < 5%
路由熵	路由器 softmax 分布的香农熵	H = -sum(p_i * log2(p_i))。256 选 8 配置的健康范围：3.0-4.5 比特
专家激活频率	路由器对每个专家的选择率	1K 样本中每个专家的计数，归一化为百分比
MRI 引导融合	基于父模型诊断结果的逐块融合比例	失效专家数量多的层分配更高的供体权重；健康层保留受体权重
健康检查	融合后的结构验证	逐层重要性比较：子模型与两个父模型。标记干扰或功能损失
黄金层	对目标能力具有最高测量重要性的层	通过峰值探针余弦距离确定（例如，推理能力的 L38 层）

基准测试结果

GPQA Diamond（198 个问题，研究生水平推理）

模型	准确率	多模态能力	架构
Darwin-35B-A3B-Opus（子模型）	90.0%	图像/视频	Qwen3.5-35B-A3B
母模型（Jackrong Claude 4.6 Opus Distilled）	85.0%	纯文本训练	Qwen3.5-35B-A3B（相同）
父模型（Qwen3.5-35B-A3B 官方版）	84.2%	图像/视频	Qwen3.5-35B-A3B

评估方式：SGLang，上下文长度 32768，温度系数 0，贪婪解码，官方 GPQA 提示格式

MMMLU（多语言知识，29 种语言）

模型	准确率
Darwin-35B-A3B-Opus（子模型）	85.0%
父模型（Qwen3.5-35B-A3B 官方版）	85.2%

GPQA 对比父模型：相对提升 +6.9%
GPQA 对比母模型：相对提升 +5.9%
MMMLU：保持父模型级别的多语言知识（85.0% vs 85.2%）

父模型与母模型

父母模型均采用完全相同的 Qwen3.5-35B-A3B 架构（40 层、256 个专家、GDN+MoE 混合模式）。母模型是在同一基座上进行的 LoRA 有监督微调（SFT），并非不同的架构。“纯文本”指的是训练数据（Claude 4.6 Opus 推理链），而非模型结构。

角色	模型	架构	训练方式
父模型	Qwen/Qwen3.5-35B-A3B	Qwen3.5-35B-A3B	原始预训练 + 人类反馈强化学习（RLHF）
母模型	Jackrong/Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled	Qwen3.5-35B-A3B（相同）	使用纯文本 Claude 推理链进行 LoRA 有监督微调

方法：Darwin V5

与现有工具的关系

Darwin V5 使用 mergekit 作为其合并后端。我们并未声称发明了进化式合并——mergekit 的 evolve 功能已具备此能力。Darwin 的创新之处在于其包含三个阶段的诊断流程，该流程通过合并前的性能分析和合并后的验证对 mergekit 进行了封装。

流程

Standard mergekit evolve:
  Random initial params --> Evolve --> Best score

Darwin V5:
  Phase 0: Profile both parents (40 layers x 256 experts)
      |    Measure: expert activation frequency, routing entropy,
      |    probe cosine distance per layer
      v
  Phase 1: Evolution with diagnostic-informed initial genome
      |    Search space constrained by dead expert map + layer importance
      v
  Phase 2: mergekit DARE-TIES merge + benchmark evaluation
      |    (same merge backend as standard mergekit)
      v
  Phase 3: Profile the child, compare against both parents
      |    Detect: interference, function loss, dead expert inheritance
      v
  Final model

Darwin V5 相比标准 mergekit evolve 的新增功能

功能	mergekit evolve	Darwin V5
合并后端	mergekit	mergekit（相同）
进化算法	CMA-ES / 随机搜索	带有诊断信息初始种群的 CMA-ES
合并前父模型分析	无	专家激活频率、路由熵、40 层 x 256 嵌入的探针余弦距离
初始搜索空间	完整参数空间	受父模型诊断结果约束
失效专家感知	无	检测失效专家，调整密度进行补偿
合并后验证	仅基准分数	逐层子模型与父模型对比
故障诊断	“分数下降”	“L23 干扰：子模型重要性为父模型的 2.3 倍，注意力头存在权重冲突”

诊断如何改变合并过程

无诊断（V4 盲进化）：

ratio=0.481，attn=0.168，ffn=0.841
所有 40 层参数统一

有诊断（V5）：

L0-L37：t=0.599（母模型 60%），母模型路由
L38：t=0.900（母模型 90%），母模型路由 — 通过探针余弦距离识别为推理核心
L39：t=0.534（父模型 47%），父模型路由 — 保留输出/多模态路由

诊断分析发现 L38 在 REASONING 和 CODE 探针上具有最高余弦距离。这为逐块策略提供了依据，而无需依赖盲搜索来发现这一点。

父模型诊断

母模型：专家激活分析

Mother MoE Health

指标	值	解读
路由熵	所有层均 ~1.0	健康 — 专家在活跃专家间均匀分布
失效专家百分比	中间层为 50-65%	LoRA SFT 仅更新参数子集；多模态/多语言专家变得不活跃
专家相似度	0.001-0.008	健康 — 留存专家保持多样性

Mother Expert Utilization

Mother Probe Cosine Distance

L34-L38 在 REASONING、CODE、LOGIC 探针上显示出高余弦距离 — 这是 Claude 蒸馏集中其推理模式的区域。

父模型：基准配置文件

Father MoE Health

Father Expert Utilization

Father Layer Importance by Probe

父模型在全部40层中展现出均匀的专家激活状态——所有专家均处于活跃状态。这使其非常适合作为母模型非活跃专家槽位的供体。

父母模型对比

Parent A vs B Layer Advantage

数值高于零：父模型表现更强——L0-L5（嵌入层/早期层）
数值低于零：母模型表现更强——L5-L35持续保持优势
L34-L38：母模型在REASONING和CODE探针上达到峰值
L39：父模型恢复优势——输出层

此优势图谱直接为3块合并方案提供了依据。

合并配置

MRI-Guided Genome

Merge Ratio per Layer

# Darwin V5 diagnostic-guided layer-wise merge
# Method: DARE-TIES via mergekit
# Genome: ratio=0.800 attn=0.320 ffn=0.590 density=0.799

L0-L37:  t=0.5988 (Mother 60%) — router from Mother
L38:     t=0.9000 (Mother 90%) — reasoning core
L39:     t=0.5336 (Father 47%) — router from Father (output routing)

参数	V4（盲测版）	V5（引导版）	调整依据
global_ratio	0.481	0.800	母模型权重占比提升——诊断结果确认其推理层质量优异
attn_ratio	0.168	0.320	增加母模型注意力占比——探针数据显示推理过程集中于注意力模式
ffn_ratio	0.841	0.590	更为保守——父模型的FFN专家填补无效槽位
density_b	0.971	0.799	降低——补偿母模型50-65%的无效专家

合并后健康检查

Darwin Health Check

子模型与双亲模型的逐层重要性对比：

第0层（嵌入层）：子模型0.42，双亲模型0.35-0.50。无干扰。
第1-33层：三者均接近零。MoE中间层的正常现象。
第34-39层：重要性上升。子模型达到或超过双亲模型——推理能力迁移已确认。
第39层（输出层）：子模型0.48，与双亲模型持平。输出功能完好。

未检测到干扰。未检测到功能损失。

继承能力

来自父模型（Qwen3.5-35B-A3B）：

多模态：图像与视频理解
201种语言：多语言覆盖
262K上下文：原生长上下文（可通过YaRN扩展至1M）
Gated DeltaNet + MoE架构
多token预测

来自母模型（Claude 4.6 Opus Distilled）：

</think>标签内的结构化分步推理
编码代理兼容性
工具调用稳定性

性能

指标	值
生成速度	147.8 tok/s
运行环境	单张NVIDIA H100 93GB NVL，SGLang，BF16

配置	显存	状态
BF16全精度	65.5 GiB
单张H100 93GB	93 GB	舒适
单张A100 80GB	80 GB	紧张
Q4_K_M量化	~18 GiB
单张RTX 4090 24GB	24 GB	舒适

模型规格


架构	Qwen3.5 MoE（Gated DeltaNet + MoE）
总参数	35B
每前向传播激活参数	3B
层数	40
布局	10 x (3 x GDN-MoE + 1 x Attention-MoE)
专家数	256（8个路由激活 + 1个共享激活）
上下文长度	262,144 原生
语言	201种
多模态	图像与视频
许可证	Apache 2.0

使用方法

SGLang（推荐）

python -m sglang.launch_server \
  --model-path FINAL-Bench/Darwin-35B-A3B-Opus \
  --tp 1 \
  --mem-fraction-static 0.90 \
  --context-length 32768 \
  --trust-remote-code

vLLM

vllm serve FINAL-Bench/Darwin-35B-A3B-Opus \
  --trust-remote-code \
  --enforce-eager

转换器

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained(
    "FINAL-Bench/Darwin-35B-A3B-Opus",
    trust_remote_code=True,
    use_fast=True,
)
model = AutoModelForCausalLM.from_pretrained(
    "FINAL-Bench/Darwin-35B-A3B-Opus",
    dtype="bfloat16",
    device_map="auto",
    trust_remote_code=True,
)

进化详情


引擎	Darwin V5（进化合并 + 层级诊断）
合并后端	mergekit（DARE-TIES）
进化过程	CMA-ES，第一阶段（200步代理）+ 第二阶段（30步真实基准测试）
最终真实得分	0.8405
合并时间	181.6秒
合并提交	109838c2
基础设施	4 × NVIDIA H100 93GB NVL

致谢

韩国政府 — GPU支持计划研究资助
Qwen Team — Qwen3.5-35B-A3B基础架构
Jackrong — Claude 4.6 Opus推理蒸馏模型
mergekit — 合并后端基础设施
nohurry、TeichAI — 蒸馏数据集

引用

@misc{vidraft_darwin_35b_opus,
  title        = {Darwin-35B-A3B-Opus: Diagnostic-Guided Evolutionary Merge},
  author       = {VIDRAFT},
  year         = {2026},
  publisher    = {Hugging Face},
  howpublished = {\url{https://huggingface.co/FINAL-Bench/Darwin-35B-A3B-Opus}}
}

常见问题

Darwin V5 与 mergekit evolve 有何区别？

Darwin V5 以 mergekit 作为其合并后端。其新增功能是一个三阶段诊断流程：（1）合并前父模型分析，在 40 层 x 256 个专家的范围内测量专家激活频率、路由熵和探针余弦距离；（2）利用诊断信息初始化种群并进行约束搜索空间的进化；（3）合并后子模型验证，将层重要性与双亲模型进行比较。标准的 mergekit evolve 不包含阶段 1 和阶段 3。

什么是“失效专家（Dead Experts）”？

在 MoE 模型中，每一层都有 256 个专家。当一个专家在包含 1K 样本的校准数据集上的激活频率低于 5% 时，该专家被称为“失效”。“母体（Mother）”模型显示有 50-65% 的失效专家，这是因为 LoRA SFT 仅更新参数子集——那些未被纯文本训练数据激活的专家会变得不活跃。

两个父模型的架构是否相同？

是的。两者均为 Qwen3.5-35B-A3B——架构、层数和专家结构完全相同。“母体（Mother）”是在相同基础模型上进行的 LoRA SFT。“纯文本（Text-only）”指的是训练数据，而非模型架构。

需要什么 GPU？

BF16 精度：H100 93GB（运行流畅）或 A100 80GB（空间紧张）。Q4 量化：RTX 4090 24GB。尽管总参数量为 35B，但每个 token 仅激活 3B 参数。

它支持图像/视频吗？

支持。该功能继承自“父体（Father）”模型。“母体（Mother）”模型在纯文本微调过程中丢失了多模态能力，但此次合并保留了“父体（Father）”模型在第 39 层的多模态路由，并将失效的多模态专家替换为活跃的专家。