Darwin-36B-Opus：基于Qwen3.6-35B-A3B的Darwin V7进化融合模型——GPQA Diamond测试达88.4%

Qwen3.6-35B-A3B 混合专家模型（MoE）| 总参数量360亿 / 激活参数量30亿 | 思维模式 | 262K上下文窗口 | 多语言支持 | BF16精度 | Apache 2.0协议 Darwin V7进化融合技术：父模型 × Opus蒸馏母模型 → GPQA Diamond测试达88.4%

摘要

Darwin-36B-Opus 是一个拥有360亿参数的混合专家（MoE）语言模型，由Darwin V7进化育种引擎基于两个公开可用的父模型生成：

父模型：Qwen/Qwen3.6-35B-A3B——具备混合注意力机制和256个路由专家的基础MoE模型。
母模型：hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled——同一父模型的Claude Opus 4.6推理蒸馏变体。

Darwin V7将这两个父模型重组为单一后代模型，既保留了母模型的蒸馏思维链行为，又维持了父模型专家拓扑结构的完整性。育种过程完全自动化，在单GPU上不到一小时即可生成可部署的bfloat16检查点。

在GPQA Diamond基准测试（包含198道物理、化学和生物学研究生级问题）中，Darwin-36B-Opus达到88.4% 的正确率，成为Darwin系列中性能最高的模型，并延续了该系列通过进化而非重新训练来打造最先进开源模型的记录。

GPQA Diamond排行榜（2026年4月23日）

排名	模型	参数规模	GPQA Diamond
1	TNSA/NGen-4-Pro	—	91.1%
2	TNSA/NGen-4	—	90.1%
3	Qwen/Qwen3.5-397B-A17B	3970亿	88.4%
3	FINAL-Bench/Darwin-36B-Opus	360亿（A3B）	88.4%
5	moonshotai/Kimi-K2.5	—	87.6%
6	FINAL-Bench/Darwin-27B-Opus	270亿	86.9%
7	Qwen/Qwen3.5-122B-A10B	1220亿	86.6%
8	zai-org/GLM-5.1	7440亿	86.2%
9	zai-org/GLM-5	7440亿	86.0%
10	zai-org/GLM-4.7	—	85.7%

一个360亿参数的MoE模型（30亿激活参数），与3970亿密集型等效模型Qwen3.5-397B-A17B并列，且超越了规模大一个数量级的旗舰密集型和稀疏型系统。

什么是Darwin？

Darwin是由FINAL-Bench / VIDRAFT_LAB开发的进化模型育种引擎。不同于将更多计算资源用于梯度优化，Darwin将训练好的检查点视为基因库，通过对其权重张量进行有原则的重组来发现高性能后代模型。

每一代Darwin（从v1到v7+）都在改进育种程序。Darwin V7是当前一代，也是用于生成本模型的版本。V7的具体算法细节为FINAL-Bench专有；大致而言，该引擎执行以下步骤：

对两个父模型进行逐张量兼容性分析，以确定哪些组件可以直接迁移，哪些需要加权重组。
根据分析结果进行自动化重组，生成单个连贯的后代模型。
在发布前通过多阶段科学基准测试进行验证。

所有Darwin模型均基于Apache 2.0许可证发布，并完全继承父模型的开源许可证。

父模型

🔵 父模型 — Qwen/Qwen3.6-35B-A3B

模型类型：Qwen3.6 MoE，共350亿参数 / ~30亿激活参数
层数：40，隐藏层大小：2048
注意力机制：混合75%门控DeltaNet + 25%门控注意力（交替）
专家：每层256个路由专家（top-8）+ 1个共享专家
原生分数：MMLU-Pro 85.2%，GPQA 86.0%，AIME26 92.7%
作用：结构主干和MoE拓扑贡献者。

🔴 母模型 — hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled

方法：基于父模型，使用14,233个Claude Opus 4.6思维链样本进行LoRA微调
训练机制：qwen3-thinking模板，仅响应掩码
原生分数：MMLU-Pro（70 limit-5）75.71%，比未蒸馏的父模型基线高出32.85个百分点
作用：推理信号贡献者 — Darwin所保留的</think>轨迹来源。

进化过程（概览）

Darwin V7通过确定性重组生成后代，最终组装过程无需梯度优化。引擎分析两个父模型中的每个张量，按架构角色进行分类，并为该角色分配适当的重组权重 — 对于承载推理行为的组件（注意力、共享专家、嵌入层）偏向母模型，同时在父模型结构贡献占优的部分予以保留。

在单张B200 GPU上的总融合时间：不到10分钟。

GPQA Diamond评估

方法

我们采用了双 pass 自适应评估协议（所有Darwin Opus模型均使用相同协议，以确保模型间的可比性）：

Pass 1 — 贪婪基线

全部198道GPQA Diamond题目，确定性解码（do_sample=False）
每道题最多生成5,120个新token（允许完整的</think>轨迹）
标准多项选择题提示格式

Pass 2 — 带决胜机制的随机重试

Pass 1中回答错误的题目，通过8次随机生成的多数投票（temperature=0.7，max_tokens=5120）重新评估
当投票结果不确定时（3:3、3:4或4:4），通过额外的16次联合决胜投票（temperature=0.5）确定答案

评估在8 × NVIDIA B200 GPU上并行进行，每张GPU运行独立的完整模型副本，处理基准测试中不相交的子集（题目轮询分配）。

汇总结果

阶段	累计正确数	准确率	变化量
第一轮 — 贪婪基线	145/198	73.2%	基线
第二轮 — 随机重试	175/198	88.4%	+15.2 个百分点

第二轮获得的 +30 题（+15.2 个百分点） 增益表明，在随机解码条件下，Mother 继承的 </think> 推理产生的正确答案数量显著多于贪婪解码，这证实了进化融合保留了推理深度。

按分片的结果

GPU	问题数	第一轮贪婪	最终结果
GPU0	25	17/25 (68.0%)	22/25 (88.0%)
GPU1	25	17/25 (68.0%)	20/25 (80.0%)
GPU2	25	19/25 (76.0%)	23/25 (92.0%)
GPU3	25	21/25 (84.0%)	25/25 (100.0%) ⭐
GPU4	25	20/25 (80.0%)	23/25 (92.0%)
GPU5	25	17/25 (68.0%)	22/25 (88.0%)
GPU6	24	17/24 (70.8%)	20/24 (83.3%)
GPU7	24	17/24 (70.8%)	20/24 (83.3%)
总计	198	145/198 (73.2%)	175/198 (88.4%)

值得注意的是，GPU3 在其 25 题分区中获得了 25/25 的满分——该分片上第一轮的所有错误都通过随机重试级联成功恢复。

使用方法

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tok = AutoTokenizer.from_pretrained("FINAL-Bench/Darwin-36B-Opus", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    "FINAL-Bench/Darwin-36B-Opus",
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True,
)

messages = [
    {"role": "user", "content": "Derive the equation for relativistic kinetic energy."}
]
text = tok.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tok(text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=5120, temperature=0.6, do_sample=True)
print(tok.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True))

评估的答案提取

这是一个思维模型——回答始终以 </think> 推理过程开头。对于基准测试，请提取 superscript: 后的最终答案：

response = tok.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True)
idx = response.rfind("</think>")
answer_part = response[idx + len("</think>"):].strip() if idx >= 0 else response

模型规格

项目	详情
架构	Qwen3MoE（基于Qwen3.6代码库）
总参数	360亿
激活参数	~30亿（每层256个路由专家中的top-8）
层数	40
隐藏层大小	2048
注意力头数	24个Q头 + 4个KV头（GQA）
头维度	256
每层专家数	256个路由专家 + 1个共享专家
上下文长度	262,144 tokens
词汇量	248,320
数据类型	bfloat16
检查点大小	~65 GB（21个分片）
许可证	Apache 2.0

显存（VRAM）要求

精度	显存	推荐GPU
bf16（完整）	~72 GB	1× H100 80GB / 1× B200
8-bit	~40 GB	1× A100 40GB+ / 1× L40S
4-bit	~22 GB	1× RTX 4090 / 1× A10

Darwin 模型系列

模型	基础模型	参数规模	GPQA Diamond
Darwin-4B-Genesis	Qwen3.5-4B	40亿	—
Darwin-9B-Opus	Qwen3.5-9B	90亿	—
Darwin-27B-Opus	Qwen3.5-27B	270亿	86.9%
Darwin-31B-Opus	Gemma2-27B × variants	310亿	85.9%
Darwin-36B-Opus	Qwen3.6-35B-A3B	360亿（A3B）	88.4% ⭐

主要发现

进化式融合持续扩展：在三个连续的参数级别（270亿 → 310亿 → 360亿）中，每一代新的Darwin Opus模型都超越了前一代的GPQA Diamond得分，同时保持了相同的零训练方法。
混合注意力MoE在重组下保留推理能力：完整继承的父模型75% Gated-DeltaNet + 25% Gated-Attention架构，在张量级重组中表现出稳健性——考虑到MoE专家路由对权重扰动敏感，这是一个显著的结果。
随机重试缩小贪婪差距：从第一轮（73.2%）到第二轮（88.4%）提升了15.2个百分点，表明母模型的Opus蒸馏推理能力始终存在，但偶尔会处于贪婪次优状态——这是精心蒸馏的思维链模型所特有的模式。

参考文献

Idavidrein 等人，《GPQA：研究生级谷歌防作弊问答基准》，2024 年。数据集
通义千问团队，《Qwen3.6 技术报告》，2026 年。

构建者

FINAL-Bench / VIDRAFT_LAB — Darwin V7 进化育种引擎。

父本基础权重来自通义千问团队。
母本来自 @hesamation（以 Claude Opus 4.6 为教师模型）。

引用

@misc{darwin-36b-opus,
  title   = {Darwin-36B-Opus: Darwin V7 Evolutionary Merge on Qwen3.6-35B-A3B},
  author  = {FINAL-Bench and VIDRAFT_LAB},
  year    = {2026},
  url     = {https://huggingface.co/FINAL-Bench/Darwin-36B-Opus},
  note    = {Qwen3.6-35B-A3B (Father) × Opus-distilled variant (Mother), Darwin V7 engine, 88.4% GPQA Diamond}
}

Darwin-36B-Opus：基于Qwen3.6-35B-A3B的Darwin V7进化融合模型——GPQA Diamond测试达88.4%

Qwen3.6-35B-A3B 混合专家模型（MoE）| 总参数量360亿 / 激活参数量30亿 | 思维模式 | 262K上下文窗口 | 多语言支持 | BF16精度 | Apache 2.0协议 Darwin V7进化融合技术：父模型 × Opus蒸馏母模型 → GPQA Diamond测试达88.4%

摘要

Darwin-36B-Opus 是一个拥有360亿参数的混合专家（MoE）语言模型，由Darwin V7进化育种引擎基于两个公开可用的父模型生成：

父模型：Qwen/Qwen3.6-35B-A3B——具备混合注意力机制和256个路由专家的基础MoE模型。
母模型：hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled——同一父模型的Claude Opus 4.6推理蒸馏变体。

GPQA Diamond排行榜（2026年4月23日）

排名	模型	参数规模	GPQA Diamond
1	TNSA/NGen-4-Pro	—	91.1%
2	TNSA/NGen-4	—	90.1%
3	Qwen/Qwen3.5-397B-A17B	3970亿	88.4%
3	FINAL-Bench/Darwin-36B-Opus	360亿（A3B）	88.4%
5	moonshotai/Kimi-K2.5	—	87.6%
6	FINAL-Bench/Darwin-27B-Opus	270亿	86.9%
7	Qwen/Qwen3.5-122B-A10B	1220亿	86.6%
8	zai-org/GLM-5.1	7440亿	86.2%
9	zai-org/GLM-5	7440亿	86.0%
10	zai-org/GLM-4.7	—	85.7%

一个360亿参数的MoE模型（30亿激活参数），与3970亿密集型等效模型Qwen3.5-397B-A17B并列，且超越了规模大一个数量级的旗舰密集型和稀疏型系统。

什么是Darwin？

对两个父模型进行逐张量兼容性分析，以确定哪些组件可以直接迁移，哪些需要加权重组。
根据分析结果进行自动化重组，生成单个连贯的后代模型。
在发布前通过多阶段科学基准测试进行验证。

所有Darwin模型均基于Apache 2.0许可证发布，并完全继承父模型的开源许可证。

父模型

🔵 父模型 — Qwen/Qwen3.6-35B-A3B

模型类型：Qwen3.6 MoE，共350亿参数 / ~30亿激活参数
层数：40，隐藏层大小：2048
注意力机制：混合75%门控DeltaNet + 25%门控注意力（交替）
专家：每层256个路由专家（top-8）+ 1个共享专家
原生分数：MMLU-Pro 85.2%，GPQA 86.0%，AIME26 92.7%
作用：结构主干和MoE拓扑贡献者。

🔴 母模型 — hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled

方法：基于父模型，使用14,233个Claude Opus 4.6思维链样本进行LoRA微调
训练机制：qwen3-thinking模板，仅响应掩码
原生分数：MMLU-Pro（70 limit-5）75.71%，比未蒸馏的父模型基线高出32.85个百分点
作用：推理信号贡献者 — Darwin所保留的</think>轨迹来源。

进化过程（概览）

在单张B200 GPU上的总融合时间：不到10分钟。

GPQA Diamond评估

方法

我们采用了双 pass 自适应评估协议（所有Darwin Opus模型均使用相同协议，以确保模型间的可比性）：

Pass 1 — 贪婪基线

全部198道GPQA Diamond题目，确定性解码（do_sample=False）
每道题最多生成5,120个新token（允许完整的</think>轨迹）
标准多项选择题提示格式

Pass 2 — 带决胜机制的随机重试

Pass 1中回答错误的题目，通过8次随机生成的多数投票（temperature=0.7，max_tokens=5120）重新评估
当投票结果不确定时（3:3、3:4或4:4），通过额外的16次联合决胜投票（temperature=0.5）确定答案

评估在8 × NVIDIA B200 GPU上并行进行，每张GPU运行独立的完整模型副本，处理基准测试中不相交的子集（题目轮询分配）。

汇总结果

阶段	累计正确数	准确率	变化量
第一轮 — 贪婪基线	145/198	73.2%	基线
第二轮 — 随机重试	175/198	88.4%	+15.2 个百分点

按分片的结果

GPU	问题数	第一轮贪婪	最终结果
GPU0	25	17/25 (68.0%)	22/25 (88.0%)
GPU1	25	17/25 (68.0%)	20/25 (80.0%)
GPU2	25	19/25 (76.0%)	23/25 (92.0%)
GPU3	25	21/25 (84.0%)	25/25 (100.0%) ⭐
GPU4	25	20/25 (80.0%)	23/25 (92.0%)
GPU5	25	17/25 (68.0%)	22/25 (88.0%)
GPU6	24	17/24 (70.8%)	20/24 (83.3%)
GPU7	24	17/24 (70.8%)	20/24 (83.3%)
总计	198	145/198 (73.2%)	175/198 (88.4%)

值得注意的是，GPU3 在其 25 题分区中获得了 25/25 的满分——该分片上第一轮的所有错误都通过随机重试级联成功恢复。

使用方法

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tok = AutoTokenizer.from_pretrained("FINAL-Bench/Darwin-36B-Opus", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    "FINAL-Bench/Darwin-36B-Opus",
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True,
)

messages = [
    {"role": "user", "content": "Derive the equation for relativistic kinetic energy."}
]
text = tok.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tok(text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=5120, temperature=0.6, do_sample=True)
print(tok.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True))

评估的答案提取

这是一个思维模型——回答始终以 </think> 推理过程开头。对于基准测试，请提取 superscript: 后的最终答案：

response = tok.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True)
idx = response.rfind("</think>")
answer_part = response[idx + len("</think>"):].strip() if idx >= 0 else response

模型规格

项目	详情
架构	Qwen3MoE（基于Qwen3.6代码库）
总参数	360亿
激活参数	~30亿（每层256个路由专家中的top-8）
层数	40
隐藏层大小	2048
注意力头数	24个Q头 + 4个KV头（GQA）
头维度	256
每层专家数	256个路由专家 + 1个共享专家
上下文长度	262,144 tokens
词汇量	248,320
数据类型	bfloat16
检查点大小	~65 GB（21个分片）
许可证	Apache 2.0

显存（VRAM）要求

精度	显存	推荐GPU
bf16（完整）	~72 GB	1× H100 80GB / 1× B200
8-bit	~40 GB	1× A100 40GB+ / 1× L40S
4-bit	~22 GB	1× RTX 4090 / 1× A10

Darwin 模型系列

模型	基础模型	参数规模	GPQA Diamond
Darwin-4B-Genesis	Qwen3.5-4B	40亿	—
Darwin-9B-Opus	Qwen3.5-9B	90亿	—
Darwin-27B-Opus	Qwen3.5-27B	270亿	86.9%
Darwin-31B-Opus	Gemma2-27B × variants	310亿	85.9%
Darwin-36B-Opus	Qwen3.6-35B-A3B	360亿（A3B）	88.4% ⭐

主要发现

进化式融合持续扩展：在三个连续的参数级别（270亿 → 310亿 → 360亿）中，每一代新的Darwin Opus模型都超越了前一代的GPQA Diamond得分，同时保持了相同的零训练方法。
混合注意力MoE在重组下保留推理能力：完整继承的父模型75% Gated-DeltaNet + 25% Gated-Attention架构，在张量级重组中表现出稳健性——考虑到MoE专家路由对权重扰动敏感，这是一个显著的结果。
随机重试缩小贪婪差距：从第一轮（73.2%）到第二轮（88.4%）提升了15.2个百分点，表明母模型的Opus蒸馏推理能力始终存在，但偶尔会处于贪婪次优状态——这是精心蒸馏的思维链模型所特有的模式。

参考文献

Idavidrein 等人，《GPQA：研究生级谷歌防作弊问答基准》，2024 年。数据集
通义千问团队，《Qwen3.6 技术报告》，2026 年。

构建者

FINAL-Bench / VIDRAFT_LAB — Darwin V7 进化育种引擎。

父本基础权重来自通义千问团队。
母本来自 @hesamation（以 Claude Opus 4.6 为教师模型）。

引用

@misc{darwin-36b-opus,
  title   = {Darwin-36B-Opus: Darwin V7 Evolutionary Merge on Qwen3.6-35B-A3B},
  author  = {FINAL-Bench and VIDRAFT_LAB},
  year    = {2026},
  url     = {https://huggingface.co/FINAL-Bench/Darwin-36B-Opus},
  note    = {Qwen3.6-35B-A3B (Father) × Opus-distilled variant (Mother), Darwin V7 engine, 88.4% GPQA Diamond}
}

Darwin-36B-Opus：基于Qwen3.6-35B-A3B的Darwin V7进化融合模型——GPQA Diamond测试达88.4%

摘要

GPQA Diamond排行榜（2026年4月23日）

什么是Darwin？

父模型

🔵 父模型 — Qwen/Qwen3.6-35B-A3B

🔴 母模型 — hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled

进化过程（概览）

GPQA Diamond评估

方法

汇总结果

按分片的结果

使用方法

评估的答案提取

推荐设置

模型规格

显存（VRAM）要求

Darwin 模型系列

主要发现

参考文献

构建者

引用

Darwin-36B-Opus：基于Qwen3.6-35B-A3B的Darwin V7进化融合模型——GPQA Diamond测试达88.4%

摘要

GPQA Diamond排行榜（2026年4月23日）

什么是Darwin？

父模型

🔵 父模型 — Qwen/Qwen3.6-35B-A3B

🔴 母模型 — hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled

进化过程（概览）

GPQA Diamond评估

方法

汇总结果

按分片的结果

使用方法

评估的答案提取

推荐设置

模型规格

显存（VRAM）要求

Darwin 模型系列

主要发现

参考文献

构建者

引用