HuggingFace镜像/HiDream-O1-Image-Dev-FP8
模型介绍文件和版本分析
下载使用量0

HiDream-O1-Image-Dev — FP8 混合精度(ComfyUI)

这是 HiDream-ai/HiDream-O1-Image-Dev 的FP8 混合精度量化版本,后者是 HiDream-O1-Image 的蒸馏变体,适用于ComfyUI。这是最易获取的变体:仅需约 10 GB 显存和28 步推理,使其成为本地运行 HiDream O1 最快的方式。

image

自定义 ComfyUI 节点: Saganaki22/HiDream_O1-ComfyUI

Screenshot 2026-05-10 005045


Dev 版与 Full 版 — 主要区别

Full 模型Dev 模型(本仓库)
推理步数5028
引导尺度(CFG)5.00.0(已禁用)
偏移量3.01.0
调度器FlowUniPCMultistepSchedulerFlashFlowMatchEulerDiscreteScheduler
速度较慢,细节更丰富约快 2 倍

Dev 模型采用了自定义 Euler 调度器,内置针对较少步数优化的噪声缩放。CFG 已禁用,因此在 Dev 模式下负面提示无效果。


显存要求

精度大致显存占用
BF1617 – 20 GB
FP1617 – 20 GB
FP8 混合精度(本仓库)约 10 GB

对于显存小于 16 GB 的 GPU,推荐使用此变体。结合 Dev 模型的 28 步调度,它是运行 HiDream O1 成本最低的方式——大约比完整 BF16 模型快 2 倍,显存占用减少一半。

什么是 FP8 混合精度? 权重以 float8_e4m3fn 格式存储。敏感层(归一化层、嵌入层、输出头)保留更高精度以确保稳定性。在 RTX 40xx / H100(Hopper/Ada)上,FP8 计算可实现硬件加速。在较旧的 GPU 上,权重会动态反量化——仍能节省显存,但会有小幅速度损失。请勿将 config.json 中的 dtype 设置为 float8_e4m3fn,保持为 bfloat16 即可——节点会直接从 safetensors 张量中检测 FP8 格式。


快速开始 — ComfyUI

1. 安装自定义节点

cd ComfyUI/custom_nodes
git clone https://github.com/Saganaki22/HiDream_O1-ComfyUI.git
cd HiDream_O1-ComfyUI
python -m pip install -r requirements.txt

或者在 ComfyUI Manager 中搜索 HiDream O1。

建议的 transformers 版本:4.57.1 – 5.3(较新版本可能会破坏兼容性)。

2. 下载权重

下载整个模型文件夹(所有文件,不仅仅是 safetensors)并将其放置在 ComfyUI/models/diffusion_models/ 中:

huggingface-cli download drbaph/HiDream-O1-Image-Dev-FP8 \
    --local-dir ComfyUI/models/diffusion_models/HiDream-O1-Image-Dev-fp8

该文件夹必须包含完整的 Hugging Face 支持文件以及权重文件: config.json、chat_template.json、generation_config.json、preprocessor_config.json、tokenizer.json、tokenizer_config.json、vocab.json、merges.txt、model.safetensors

3. 在 ComfyUI 中加载

使用自定义节点仓库中提供的工作流。加载器会检测文件夹名称中的“dev”并自动应用开发版设置(28 步,无 CFG,Euler 调度器)。将模型加载器指向 HiDream-O1-Image-Dev-fp8。

要在支持的硬件上实现最快推理速度,请在模型加载器节点中将精度设置为 fp8_e4m3fn_fast。


关于 HiDream-O1-Image

HiDream-O1-Image 是一款基于像素级统一 Transformer(UiT) 构建的原生统一图像生成基础模型——无需外部 VAE,无需分离的文本编码器。它在单一共享令牌空间中对原始像素、文本和特定任务条件进行编码,支持:

  • 文本到图像生成,分辨率高达 2048 × 2048
  • 基于指令的图像编辑
  • 主题驱动的个性化(多参考 IP)
  • 长文本和多语言文本渲染

仅 90 亿参数,其性能即可媲美甚至超越许多更大规模的开源 DiT 以及领先的闭源模型。它在 “Artificial Analysis 文本到图像竞技场”(2026-05-05)中首次亮相即获得第 8 名。


主要特性

  • 🧬 像素级统一 Transformer — 端到端处理原始像素,无需 VAE,无需分离的文本编码器
  • 🎨 一模型,多任务 — 支持文本到图像生成、编辑、个性化、故事板生成
  • ⚡ 28 步蒸馏开发版 — 比完整模型快约 2 倍,质量损失极小
  • 💾 FP8 量化 — 显存占用约为全精度变体的一半
  • 🖼️ 原生高分辨率 — 直接合成分辨率高达 2048 × 2048

所有模型变体

完整模型

仓库精度显存步数
drbaph/HiDream-O1-Image-BF16BF1617–20 GB50
drbaph/HiDream-O1-Image-FP16FP1617–20 GB50
drbaph/HiDream-O1-Image-FP8FP8 混合精度~10 GB50

开发模型(蒸馏版,速度更快)

仓库精度显存步数
drbaph/HiDream-O1-Image-Dev-BF16BF1617–20 GB28
drbaph/HiDream-O1-Image-Dev-FP16FP1617–20 GB28
drbaph/HiDream-O1-Image-Dev-FP8 (本仓库)FP8 混合精度~10 GB28

许可证

原始 HiDream-O1-Image 模型及代码基于 MIT 许可证发布。本 FP8 量化版本继承相同许可证。


链接

  • 🔗 原始开发模型:HiDream-ai/HiDream-O1-Image-Dev
  • 🔗 原始完整模型:HiDream-ai/HiDream-O1-Image
  • 🔧 ComfyUI 节点:Saganaki22/HiDream_O1-ComfyUI
  • 📑 技术报告:HiDream-O1-Image.pdf
  • 🤗 在线演示:HiDream-O1-Image-Dev Space