HuggingFace镜像/Nucleus-Image
模型介绍文件和版本分析
下载使用量0

🌐 官网   |   🖥️ GitHub   |   🤗 Hugging Face   |   📑 技术报告

简介

Nucleus-Image 是一款基于稀疏混合专家(MoE)扩散Transformer架构构建的文本到图像生成模型。它在每层64个路由专家的配置下,总参数量达到170亿,而每次前向传播仅激活约20亿参数,在质量与效率的权衡上树立了新的帕累托前沿。在GenEval、DPG-Bench和OneIG-Bench等基准测试中,Nucleus-Image的表现达到或超越了Qwen-Image、GPT Image 1、Seedream 3.0和Imagen4等领先模型。本模型为基础模型,未经任何后训练优化(无DPO、无强化学习、无人类偏好调优)。所有报告结果均仅反映预训练性能。我们开放了完整模型权重、训练代码及数据集,使Nucleus-Image成为该质量级别下首个完全开源的MoE扩散模型。

核心特性

  • 稀疏MoE效率:总容量达170亿,每次前向传播仅激活约20亿参数,以密集模型的部分推理成本实现高质量生成
  • 专家选择路由:无需辅助负载均衡损失即可保证专家利用率均衡,采用解耦路由设计,将时间步感知分配与时间步条件计算分离
  • 基础模型,无后训练:本模型为基础模型。所有基准测试结果均来自预训练本身,未使用DPO、强化学习或人类偏好调优
  • 多宽高比支持:从训练初始阶段就在各分辨率层级采用宽高比分桶技术,支持多种输出尺寸
  • 基于diffusers的文本KV缓存:文本令牌完全排除在Transformer主干之外,其KV投影在所有去噪步骤中缓存。该缓存在diffusers流水线中原生集成,只需通过TextKVCacheConfig启用,即可自动加速推理,无需修改推理循环代码
  • 渐进式分辨率训练:三阶段课程学习(256 → 512 → 1024),专家容量逐步稀疏化

架构

Architecture

Nucleus-Image 是一个 32 层的扩散 transformer,其中 32 个块中的 29 个用包含 64 个路由专家和 1 个共享专家的稀疏 MoE 层取代了密集 FFN(前 3 层为保证训练稳定性使用密集 FFN)。图像查询通过联合注意力机制关注拼接后的图像和文本键值对。文本标记完全不参与 transformer 主干网络,仅作为键值贡献者。这消除了文本的 MoE 路由开销,并支持在去噪步骤中进行完整的文本键值缓存。

路由采用专家选择(Expert-Choice) 与解耦设计:路由器接收未调制的标记表示与时间步嵌入的拼接,而专家 MLP 接收完全调制的表示。这可防止在不同时间步变化幅度达一个数量级的自适应调制尺度将专家选择压缩为依赖时间步的路由,从而保留空间和语义专家的专门化。

模型规格

规格值
总参数170 亿
激活参数~20 亿
架构稀疏 MoE 扩散 Transformer
层数32
隐藏维度2048
注意力头数(Q / KV)16 / 4(GQA)
每个 MoE 层的专家数64 个路由专家 + 1 个共享专家
专家隐藏维度1344
文本编码器Qwen3-VL-8B-Instruct
图像 tokenizerQwen-Image VAE(16ch)
训练数据7 亿张图像,15 亿个标题对
训练课程渐进式分辨率(256 → 512 → 1024)
总训练步数170 万

基准测试结果

Overall Performance

尽管每次前向传递仅激活其 170 亿参数中的约 20 亿,Nucleus-Image 在所有三个基准测试中均取得了最先进或接近最先进的结果。所有结果均来自基础模型在 1024x1024 分辨率、50 步推理、CFG 缩放 8.0 条件下的表现。

基准测试分数亮点
GenEval0.87与 Qwen-Image 持平;在空间位置任务上领先所有模型(0.85)
DPG-Bench88.79总体排名第一;在实体(93.08)、属性(92.20)和其他(93.62)任务上领先
OneIG-Bench0.522超过 Imagen4(0.515)和 Recraft V3(0.502);在风格任务上表现强劲(0.430)

快速开始

安装最新版本的 diffusers:

pip install git+https://github.com/huggingface/diffusers

使用 Nucleus-Image 生成图像:

import torch
from diffusers import DiffusionPipeline
from diffusers import TextKVCacheConfig

model_name = "NucleusAI/Nucleus-Image"

pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch.bfloat16)
pipe.to("cuda")

# Enable Text KV caching across denoising steps (integrated into diffusers)
config = TextKVCacheConfig()
pipe.transformer.enable_cache(config)

# Supported aspect ratios
aspect_ratios = {
    "1:1": (1024, 1024),
    "16:9": (1344, 768),
    "9:16": (768, 1344),
    "4:3": (1184, 896),
    "3:4": (896, 1184),
    "3:2": (1248, 832),
    "2:3": (832, 1248),
}

prompt = "A weathered lighthouse on a rocky coastline at golden hour, waves crashing against the rocks below, seagulls circling overhead, dramatic clouds painted in shades of amber and violet"
width, height = aspect_ratios["16:9"]

image = pipe(
    prompt=prompt,
    width=width,
    height=height,
    num_inference_steps=50,
    guidance_scale=4.0,
    generator=torch.Generator(device="cuda").manual_seed(42),
).images[0]

image.save("nucleus_output.png")

亮点

人像与人物

Nucleus-Image 生成的人物主体与肖像,涵盖多元文化、不同年龄及多样艺术风格。从富有表现力的人物特写,到细节丰富的近景镜头,呈现出精致的皮肤纹理与细腻质感。

奇幻、超现实主义与自然

Nucleus-Image 生成内容横跨奇幻、超现实主义、动画及自然世界领域。

商业及日常影像

Nucleus-Image 生成内容覆盖产品摄影、建筑、排版、美食及世界文化等场景,展现其在商业、概念性及日常影像创作中的多面适用性。

许可协议

Nucleus-Image 采用 Apache 2.0 许可协议。

引用

@misc{nucleusimage2026,
      title={Nucleus-Image: Sparse MoE for Image Generation},
      author={Nucleus AI Team},
      year={2026},
      eprint={2604.12163},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
}