35B MoE(3B 激活)| GPQA Diamond 90.0%(父模型 84.2%,母模型 85.0%)| MMMLU 85.0% | 多模态 | 201 种语言 | 262K 上下文 | 147.8 tok/s | Apache 2.0
在描述方法之前,我们先定义本文档中使用的术语。这些并非隐喻,而是指特定的、可测量的量。
| 术语 | 定义 | 测量方式 |
|---|---|---|
| 模型 MRI | 专家激活模式和层重要性的层级分析 | 1K 样本校准集、每层专家激活频率、路由熵、探针余弦距离 |
| 失效专家 | 路由器极少选择的 MoE 专家 | 在校准数据集上的激活频率 < 5% |
| 路由熵 | 路由器 softmax 分布的香农熵 | H = -sum(p_i * log2(p_i))。256 选 8 配置的健康范围:3.0-4.5 比特 |
| 专家激活频率 | 路由器对每个专家的选择率 | 1K 样本中每个专家的计数,归一化为百分比 |
| MRI 引导融合 | 基于父模型诊断结果的逐块融合比例 | 失效专家数量多的层分配更高的供体权重;健康层保留受体权重 |
| 健康检查 | 融合后的结构验证 | 逐层重要性比较:子模型与两个父模型。标记干扰或功能损失 |
| 黄金层 | 对目标能力具有最高测量重要性的层 | 通过峰值探针余弦距离确定(例如,推理能力的 L38 层) |
GPQA Diamond(198 个问题,研究生水平推理)
| 模型 | 准确率 | 多模态能力 | 架构 |
|---|---|---|---|
| Darwin-35B-A3B-Opus(子模型) | 90.0% | 图像/视频 | Qwen3.5-35B-A3B |
| 母模型(Jackrong Claude 4.6 Opus Distilled) | 85.0% | 纯文本训练 | Qwen3.5-35B-A3B(相同) |
| 父模型(Qwen3.5-35B-A3B 官方版) | 84.2% | 图像/视频 | Qwen3.5-35B-A3B |
评估方式:SGLang,上下文长度 32768,温度系数 0,贪婪解码,官方 GPQA 提示格式
MMMLU(多语言知识,29 种语言)
| 模型 | 准确率 |
|---|---|
| Darwin-35B-A3B-Opus(子模型) | 85.0% |
| 父模型(Qwen3.5-35B-A3B 官方版) | 85.2% |
父母模型均采用完全相同的 Qwen3.5-35B-A3B 架构(40 层、256 个专家、GDN+MoE 混合模式)。母模型是在同一基座上进行的 LoRA 有监督微调(SFT),并非不同的架构。“纯文本”指的是训练数据(Claude 4.6 Opus 推理链),而非模型结构。
| 角色 | 模型 | 架构 | 训练方式 |
|---|---|---|---|
| 父模型 | Qwen/Qwen3.5-35B-A3B | Qwen3.5-35B-A3B | 原始预训练 + 人类反馈强化学习(RLHF) |
| 母模型 | Jackrong/Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled | Qwen3.5-35B-A3B(相同) | 使用纯文本 Claude 推理链进行 LoRA 有监督微调 |
Darwin V5 使用 mergekit 作为其合并后端。我们并未声称发明了进化式合并——mergekit 的 evolve 功能已具备此能力。Darwin 的创新之处在于其包含三个阶段的诊断流程,该流程通过合并前的性能分析和合并后的验证对 mergekit 进行了封装。
Standard mergekit evolve:
Random initial params --> Evolve --> Best score
Darwin V5:
Phase 0: Profile both parents (40 layers x 256 experts)
| Measure: expert activation frequency, routing entropy,
| probe cosine distance per layer
v
Phase 1: Evolution with diagnostic-informed initial genome
| Search space constrained by dead expert map + layer importance
v
Phase 2: mergekit DARE-TIES merge + benchmark evaluation
| (same merge backend as standard mergekit)
v
Phase 3: Profile the child, compare against both parents
| Detect: interference, function loss, dead expert inheritance
v
Final model| 功能 | mergekit evolve | Darwin V5 |
|---|---|---|
| 合并后端 | mergekit | mergekit(相同) |
| 进化算法 | CMA-ES / 随机搜索 | 带有诊断信息初始种群的 CMA-ES |
| 合并前父模型分析 | 无 | 专家激活频率、路由熵、40 层 x 256 嵌入的探针余弦距离 |
| 初始搜索空间 | 完整参数空间 | 受父模型诊断结果约束 |
| 失效专家感知 | 无 | 检测失效专家,调整密度进行补偿 |
| 合并后验证 | 仅基准分数 | 逐层子模型与父模型对比 |
| 故障诊断 | “分数下降” | “L23 干扰:子模型重要性为父模型的 2.3 倍,注意力头存在权重冲突” |
无诊断(V4 盲进化):
有诊断(V5):
诊断分析发现 L38 在 REASONING 和 CODE 探针上具有最高余弦距离。这为逐块策略提供了依据,而无需依赖盲搜索来发现这一点。

| 指标 | 值 | 解读 |
|---|---|---|
| 路由熵 | 所有层均 ~1.0 | 健康 — 专家在活跃专家间均匀分布 |
| 失效专家百分比 | 中间层为 50-65% | LoRA SFT 仅更新参数子集;多模态/多语言专家变得不活跃 |
| 专家相似度 | 0.001-0.008 | 健康 — 留存专家保持多样性 |


L34-L38 在 REASONING、CODE、LOGIC 探针上显示出高余弦距离 — 这是 Claude 蒸馏集中其推理模式的区域。



父模型在全部40层中展现出均匀的专家激活状态——所有专家均处于活跃状态。这使其非常适合作为母模型非活跃专家槽位的供体。

此优势图谱直接为3块合并方案提供了依据。


# Darwin V5 diagnostic-guided layer-wise merge
# Method: DARE-TIES via mergekit
# Genome: ratio=0.800 attn=0.320 ffn=0.590 density=0.799
L0-L37: t=0.5988 (Mother 60%) — router from Mother
L38: t=0.9000 (Mother 90%) — reasoning core
L39: t=0.5336 (Father 47%) — router from Father (output routing)| 参数 | V4(盲测版) | V5(引导版) | 调整依据 |
|---|---|---|---|
| global_ratio | 0.481 | 0.800 | 母模型权重占比提升——诊断结果确认其推理层质量优异 |
| attn_ratio | 0.168 | 0.320 | 增加母模型注意力占比——探针数据显示推理过程集中于注意力模式 |
| ffn_ratio | 0.841 | 0.590 | 更为保守——父模型的FFN专家填补无效槽位 |
| density_b | 0.971 | 0.799 | 降低——补偿母模型50-65%的无效专家 |
子模型与双亲模型的逐层重要性对比:
未检测到干扰。未检测到功能损失。
来自父模型(Qwen3.5-35B-A3B):
来自母模型(Claude 4.6 Opus Distilled):
</think>标签内的结构化分步推理| 指标 | 值 |
|---|---|
| 生成速度 | 147.8 tok/s |
| 运行环境 | 单张NVIDIA H100 93GB NVL,SGLang,BF16 |
| 配置 | 显存 | 状态 |
|---|---|---|
| BF16全精度 | 65.5 GiB | |
| 单张H100 93GB | 93 GB | 舒适 |
| 单张A100 80GB | 80 GB | 紧张 |
| Q4_K_M量化 | ~18 GiB | |
| 单张RTX 4090 24GB | 24 GB | 舒适 |
| 架构 | Qwen3.5 MoE(Gated DeltaNet + MoE) |
| 总参数 | 35B |
| 每前向传播激活参数 | 3B |
| 层数 | 40 |
| 布局 | 10 x (3 x GDN-MoE + 1 x Attention-MoE) |
| 专家数 | 256(8个路由激活 + 1个共享激活) |
| 上下文长度 | 262,144 原生 |
| 语言 | 201种 |
| 多模态 | 图像与视频 |
| 许可证 | Apache 2.0 |
python -m sglang.launch_server \
--model-path FINAL-Bench/Darwin-35B-A3B-Opus \
--tp 1 \
--mem-fraction-static 0.90 \
--context-length 32768 \
--trust-remote-codevllm serve FINAL-Bench/Darwin-35B-A3B-Opus \
--trust-remote-code \
--enforce-eagerfrom transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained(
"FINAL-Bench/Darwin-35B-A3B-Opus",
trust_remote_code=True,
use_fast=True,
)
model = AutoModelForCausalLM.from_pretrained(
"FINAL-Bench/Darwin-35B-A3B-Opus",
dtype="bfloat16",
device_map="auto",
trust_remote_code=True,
)| 引擎 | Darwin V5(进化合并 + 层级诊断) |
| 合并后端 | mergekit(DARE-TIES) |
| 进化过程 | CMA-ES,第一阶段(200步代理)+ 第二阶段(30步真实基准测试) |
| 最终真实得分 | 0.8405 |
| 合并时间 | 181.6秒 |
| 合并提交 | 109838c2 |
| 基础设施 | 4 × NVIDIA H100 93GB NVL |
@misc{vidraft_darwin_35b_opus,
title = {Darwin-35B-A3B-Opus: Diagnostic-Guided Evolutionary Merge},
author = {VIDRAFT},
year = {2026},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/FINAL-Bench/Darwin-35B-A3B-Opus}}
}