🌐 官网 | 🖥️ GitHub | 🤗 Hugging Face | 📑 技术报告
Nucleus-Image 是一款基于稀疏混合专家(MoE)扩散Transformer架构构建的文本到图像生成模型。它在每层64个路由专家的配置下,总参数量达到170亿,而每次前向传播仅激活约20亿参数,在质量与效率的权衡上树立了新的帕累托前沿。在GenEval、DPG-Bench和OneIG-Bench等基准测试中,Nucleus-Image的表现达到或超越了Qwen-Image、GPT Image 1、Seedream 3.0和Imagen4等领先模型。本模型为基础模型,未经任何后训练优化(无DPO、无强化学习、无人类偏好调优)。所有报告结果均仅反映预训练性能。我们开放了完整模型权重、训练代码及数据集,使Nucleus-Image成为该质量级别下首个完全开源的MoE扩散模型。
diffusers流水线中原生集成,只需通过TextKVCacheConfig启用,即可自动加速推理,无需修改推理循环代码
Nucleus-Image 是一个 32 层的扩散 transformer,其中 32 个块中的 29 个用包含 64 个路由专家和 1 个共享专家的稀疏 MoE 层取代了密集 FFN(前 3 层为保证训练稳定性使用密集 FFN)。图像查询通过联合注意力机制关注拼接后的图像和文本键值对。文本标记完全不参与 transformer 主干网络,仅作为键值贡献者。这消除了文本的 MoE 路由开销,并支持在去噪步骤中进行完整的文本键值缓存。
路由采用专家选择(Expert-Choice) 与解耦设计:路由器接收未调制的标记表示与时间步嵌入的拼接,而专家 MLP 接收完全调制的表示。这可防止在不同时间步变化幅度达一个数量级的自适应调制尺度将专家选择压缩为依赖时间步的路由,从而保留空间和语义专家的专门化。
| 规格 | 值 |
|---|---|
| 总参数 | 170 亿 |
| 激活参数 | ~20 亿 |
| 架构 | 稀疏 MoE 扩散 Transformer |
| 层数 | 32 |
| 隐藏维度 | 2048 |
| 注意力头数(Q / KV) | 16 / 4(GQA) |
| 每个 MoE 层的专家数 | 64 个路由专家 + 1 个共享专家 |
| 专家隐藏维度 | 1344 |
| 文本编码器 | Qwen3-VL-8B-Instruct |
| 图像 tokenizer | Qwen-Image VAE(16ch) |
| 训练数据 | 7 亿张图像,15 亿个标题对 |
| 训练课程 | 渐进式分辨率(256 → 512 → 1024) |
| 总训练步数 | 170 万 |

尽管每次前向传递仅激活其 170 亿参数中的约 20 亿,Nucleus-Image 在所有三个基准测试中均取得了最先进或接近最先进的结果。所有结果均来自基础模型在 1024x1024 分辨率、50 步推理、CFG 缩放 8.0 条件下的表现。
| 基准测试 | 分数 | 亮点 |
|---|---|---|
| GenEval | 0.87 | 与 Qwen-Image 持平;在空间位置任务上领先所有模型(0.85) |
| DPG-Bench | 88.79 | 总体排名第一;在实体(93.08)、属性(92.20)和其他(93.62)任务上领先 |
| OneIG-Bench | 0.522 | 超过 Imagen4(0.515)和 Recraft V3(0.502);在风格任务上表现强劲(0.430) |
安装最新版本的 diffusers:
pip install git+https://github.com/huggingface/diffusers使用 Nucleus-Image 生成图像:
import torch
from diffusers import DiffusionPipeline
from diffusers import TextKVCacheConfig
model_name = "NucleusAI/Nucleus-Image"
pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch.bfloat16)
pipe.to("cuda")
# Enable Text KV caching across denoising steps (integrated into diffusers)
config = TextKVCacheConfig()
pipe.transformer.enable_cache(config)
# Supported aspect ratios
aspect_ratios = {
"1:1": (1024, 1024),
"16:9": (1344, 768),
"9:16": (768, 1344),
"4:3": (1184, 896),
"3:4": (896, 1184),
"3:2": (1248, 832),
"2:3": (832, 1248),
}
prompt = "A weathered lighthouse on a rocky coastline at golden hour, waves crashing against the rocks below, seagulls circling overhead, dramatic clouds painted in shades of amber and violet"
width, height = aspect_ratios["16:9"]
image = pipe(
prompt=prompt,
width=width,
height=height,
num_inference_steps=50,
guidance_scale=4.0,
generator=torch.Generator(device="cuda").manual_seed(42),
).images[0]
image.save("nucleus_output.png")Nucleus-Image 生成的人物主体与肖像,涵盖多元文化、不同年龄及多样艺术风格。从富有表现力的人物特写,到细节丰富的近景镜头,呈现出精致的皮肤纹理与细腻质感。

Nucleus-Image 生成内容横跨奇幻、超现实主义、动画及自然世界领域。

Nucleus-Image 生成内容覆盖产品摄影、建筑、排版、美食及世界文化等场景,展现其在商业、概念性及日常影像创作中的多面适用性。

Nucleus-Image 采用 Apache 2.0 许可协议。
@misc{nucleusimage2026,
title={Nucleus-Image: Sparse MoE for Image Generation},
author={Nucleus AI Team},
year={2026},
eprint={2604.12163},
archivePrefix={arXiv},
primaryClass={cs.CV},
}