HuggingFace镜像/Darwin-36B-Opus
模型介绍文件和版本分析
下载使用量0

Darwin-36B-Opus:基于Qwen3.6-35B-A3B的Darwin V7进化融合模型——GPQA Diamond测试达88.4%

GPQA Sibling

Genesis 9B 27B 31B

36B

Family FINAL Bench

Qwen3.6-35B-A3B 混合专家模型(MoE)| 总参数量360亿 / 激活参数量30亿 | 思维模式 | 262K上下文窗口 | 多语言支持 | BF16精度 | Apache 2.0协议 Darwin V7进化融合技术:父模型 × Opus蒸馏母模型 → GPQA Diamond测试达88.4%


摘要

Darwin-36B-Opus 是一个拥有360亿参数的混合专家(MoE)语言模型,由Darwin V7进化育种引擎基于两个公开可用的父模型生成:

  • 父模型:Qwen/Qwen3.6-35B-A3B——具备混合注意力机制和256个路由专家的基础MoE模型。
  • 母模型:hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled——同一父模型的Claude Opus 4.6推理蒸馏变体。

Darwin V7将这两个父模型重组为单一后代模型,既保留了母模型的蒸馏思维链行为,又维持了父模型专家拓扑结构的完整性。育种过程完全自动化,在单GPU上不到一小时即可生成可部署的bfloat16检查点。

在GPQA Diamond基准测试(包含198道物理、化学和生物学研究生级问题)中,Darwin-36B-Opus达到88.4% 的正确率,成为Darwin系列中性能最高的模型,并延续了该系列通过进化而非重新训练来打造最先进开源模型的记录。


GPQA Diamond排行榜(2026年4月23日)

排名模型参数规模GPQA Diamond
1TNSA/NGen-4-Pro—91.1%
2TNSA/NGen-4—90.1%
3Qwen/Qwen3.5-397B-A17B3970亿88.4%
3FINAL-Bench/Darwin-36B-Opus360亿(A3B)88.4%
5moonshotai/Kimi-K2.5—87.6%
6FINAL-Bench/Darwin-27B-Opus270亿86.9%
7Qwen/Qwen3.5-122B-A10B1220亿86.6%
8zai-org/GLM-5.17440亿86.2%
9zai-org/GLM-57440亿86.0%
10zai-org/GLM-4.7—85.7%

一个360亿参数的MoE模型(30亿激活参数),与3970亿密集型等效模型Qwen3.5-397B-A17B并列,且超越了规模大一个数量级的旗舰密集型和稀疏型系统。


什么是Darwin?

Darwin是由FINAL-Bench / VIDRAFT_LAB开发的进化模型育种引擎。不同于将更多计算资源用于梯度优化,Darwin将训练好的检查点视为基因库,通过对其权重张量进行有原则的重组来发现高性能后代模型。

每一代Darwin(从v1到v7+)都在改进育种程序。Darwin V7是当前一代,也是用于生成本模型的版本。V7的具体算法细节为FINAL-Bench专有;大致而言,该引擎执行以下步骤:

  1. 对两个父模型进行逐张量兼容性分析,以确定哪些组件可以直接迁移,哪些需要加权重组。
  2. 根据分析结果进行自动化重组,生成单个连贯的后代模型。
  3. 在发布前通过多阶段科学基准测试进行验证。

所有Darwin模型均基于Apache 2.0许可证发布,并完全继承父模型的开源许可证。


父模型

🔵 父模型 — Qwen/Qwen3.6-35B-A3B

  • 模型类型:Qwen3.6 MoE,共350亿参数 / ~30亿激活参数
  • 层数:40,隐藏层大小:2048
  • 注意力机制:混合75%门控DeltaNet + 25%门控注意力(交替)
  • 专家:每层256个路由专家(top-8)+ 1个共享专家
  • 原生分数:MMLU-Pro 85.2%,GPQA 86.0%,AIME26 92.7%
  • 作用:结构主干和MoE拓扑贡献者。

🔴 母模型 — hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled

  • 方法:基于父模型,使用14,233个Claude Opus 4.6思维链样本进行LoRA微调
  • 训练机制:qwen3-thinking模板,仅响应掩码
  • 原生分数:MMLU-Pro(70 limit-5)75.71%,比未蒸馏的父模型基线高出32.85个百分点
  • 作用:推理信号贡献者 — Darwin所保留的</think>轨迹来源。

进化过程(概览)

Darwin V7通过确定性重组生成后代,最终组装过程无需梯度优化。引擎分析两个父模型中的每个张量,按架构角色进行分类,并为该角色分配适当的重组权重 — 对于承载推理行为的组件(注意力、共享专家、嵌入层)偏向母模型,同时在父模型结构贡献占优的部分予以保留。

在单张B200 GPU上的总融合时间:不到10分钟。


GPQA Diamond评估

方法

我们采用了双 pass 自适应评估协议(所有Darwin Opus模型均使用相同协议,以确保模型间的可比性):

Pass 1 — 贪婪基线

  • 全部198道GPQA Diamond题目,确定性解码(do_sample=False)
  • 每道题最多生成5,120个新token(允许完整的</think>轨迹)
  • 标准多项选择题提示格式

Pass 2 — 带决胜机制的随机重试

  • Pass 1中回答错误的题目,通过8次随机生成的多数投票(temperature=0.7,max_tokens=5120)重新评估
  • 当投票结果不确定时(3:3、3:4或4:4),通过额外的16次联合决胜投票(temperature=0.5)确定答案

评估在8 × NVIDIA B200 GPU上并行进行,每张GPU运行独立的完整模型副本,处理基准测试中不相交的子集(题目轮询分配)。

汇总结果

阶段累计正确数准确率变化量
第一轮 — 贪婪基线145/19873.2%基线
第二轮 — 随机重试175/19888.4%+15.2 个百分点

第二轮获得的 +30 题(+15.2 个百分点) 增益表明,在随机解码条件下,Mother 继承的 </think> 推理产生的正确答案数量显著多于贪婪解码,这证实了进化融合保留了推理深度。

按分片的结果

GPU问题数第一轮贪婪最终结果
GPU02517/25 (68.0%)22/25 (88.0%)
GPU12517/25 (68.0%)20/25 (80.0%)
GPU22519/25 (76.0%)23/25 (92.0%)
GPU32521/25 (84.0%)25/25 (100.0%) ⭐
GPU42520/25 (80.0%)23/25 (92.0%)
GPU52517/25 (68.0%)22/25 (88.0%)
GPU62417/24 (70.8%)20/24 (83.3%)
GPU72417/24 (70.8%)20/24 (83.3%)
总计198145/198 (73.2%)175/198 (88.4%)

值得注意的是,GPU3 在其 25 题分区中获得了 25/25 的满分——该分片上第一轮的所有错误都通过随机重试级联成功恢复。


使用方法

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tok = AutoTokenizer.from_pretrained("FINAL-Bench/Darwin-36B-Opus", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    "FINAL-Bench/Darwin-36B-Opus",
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True,
)

messages = [
    {"role": "user", "content": "Derive the equation for relativistic kinetic energy."}
]
text = tok.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tok(text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=5120, temperature=0.6, do_sample=True)
print(tok.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True))

评估的答案提取

这是一个思维模型——回答始终以 </think> 推理过程开头。对于基准测试,请提取 superscript: 后的最终答案:

response = tok.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True)
idx = response.rfind("</think>")
answer_part = response[idx + len("</think>"):].strip() if idx >= 0 else response

推荐设置

  • 温度(Temperature):推理/多数投票任务建议设置为0.6–0.7;贪婪确定性任务建议设置为0.0
  • 最大新生成 tokens(max_new_tokens):≥5120,以容纳完整的 </think> 轨迹
  • 聊天模板(Chat template):<|im_start|>assistant\n</think>\n 由 apply_chat_template(add_generation_prompt=True) 自动插入

模型规格

项目详情
架构Qwen3MoE(基于Qwen3.6代码库)
总参数360亿
激活参数~30亿(每层256个路由专家中的top-8)
层数40
隐藏层大小2048
注意力头数24个Q头 + 4个KV头(GQA)
头维度256
每层专家数256个路由专家 + 1个共享专家
上下文长度262,144 tokens
词汇量248,320
数据类型bfloat16
检查点大小~65 GB(21个分片)
许可证Apache 2.0

显存(VRAM)要求

精度显存推荐GPU
bf16(完整)~72 GB1× H100 80GB / 1× B200
8-bit~40 GB1× A100 40GB+ / 1× L40S
4-bit~22 GB1× RTX 4090 / 1× A10

Darwin 模型系列

模型基础模型参数规模GPQA Diamond
Darwin-4B-GenesisQwen3.5-4B40亿—
Darwin-9B-OpusQwen3.5-9B90亿—
Darwin-27B-OpusQwen3.5-27B270亿86.9%
Darwin-31B-OpusGemma2-27B × variants310亿85.9%
Darwin-36B-OpusQwen3.6-35B-A3B360亿(A3B)88.4% ⭐

主要发现

  1. 进化式融合持续扩展:在三个连续的参数级别(270亿 → 310亿 → 360亿)中,每一代新的Darwin Opus模型都超越了前一代的GPQA Diamond得分,同时保持了相同的零训练方法。

  2. 混合注意力MoE在重组下保留推理能力:完整继承的父模型75% Gated-DeltaNet + 25% Gated-Attention架构,在张量级重组中表现出稳健性——考虑到MoE专家路由对权重扰动敏感,这是一个显著的结果。

  3. 随机重试缩小贪婪差距:从第一轮(73.2%)到第二轮(88.4%)提升了15.2个百分点,表明母模型的Opus蒸馏推理能力始终存在,但偶尔会处于贪婪次优状态——这是精心蒸馏的思维链模型所特有的模式。


参考文献

  • Idavidrein 等人,《GPQA:研究生级谷歌防作弊问答基准》,2024 年。数据集
  • 通义千问团队,《Qwen3.6 技术报告》,2026 年。

构建者

FINAL-Bench / VIDRAFT_LAB — Darwin V7 进化育种引擎。

  • 父本基础权重来自通义千问团队。
  • 母本来自 @hesamation(以 Claude Opus 4.6 为教师模型)。

引用

@misc{darwin-36b-opus,
  title   = {Darwin-36B-Opus: Darwin V7 Evolutionary Merge on Qwen3.6-35B-A3B},
  author  = {FINAL-Bench and VIDRAFT_LAB},
  year    = {2026},
  url     = {https://huggingface.co/FINAL-Bench/Darwin-36B-Opus},
  note    = {Qwen3.6-35B-A3B (Father) × Opus-distilled variant (Mother), Darwin V7 engine, 88.4% GPQA Diamond}
}