这是 HiDream-O1-Image 的FP8 混合精度量化版本,适用于ComfyUI。通过量化为 8 位浮点数,该模型可轻松适配约 10 GB 的显存,使得 12 GB 显存的 GPU(如 RTX 3080/4070/4080 等)能够运行,且质量损失极小。

自定义 ComfyUI 节点: Saganaki22/HiDream_O1-ComfyUI

| 精度 | 大致显存占用 |
|---|---|
| BF16 | 17 – 20 GB |
| FP16 | 17 – 20 GB |
| FP8 混合精度(本仓库) | ~10 GB |
对于显存小于 16 GB 的 GPU,推荐使用此版本。已在 12 GB 显存的显卡上测试过 2048 × 2048 分辨率。
什么是 FP8 混合精度? 权重以
float8_e4m3fn格式存储。敏感层(如归一化层、嵌入层、输出头)保留更高精度以确保稳定性,因此称为“混合精度”。在具备 Hopper 或 Ada Lovelace 架构的 CUDA 显卡(RTX 40xx 系列、H100)上,FP8 计算可利用硬件加速。在较旧的 GPU 上,权重会动态反量化,虽然仍能节省显存,但会有小幅速度损失。
cd ComfyUI/custom_nodes
git clone https://github.com/Saganaki22/HiDream_O1-ComfyUI
pip install -r HiDream_O1-ComfyUI/requirements.txt也可以通过 ComfyUI Manager 进行安装,搜索 HiDream O1 即可。
huggingface-cli download drbaph/HiDream-O1-Image-FP8 \
--local-dir ComfyUI/models/diffusion_models/HiDream-O1-Image-fp8打开 ComfyUI 并使用自定义节点仓库中提供的工作流。将模型加载器指向 HiDream-O1-Image-fp8。
HiDream-O1-Image 是一款原生统一的图像生成基础模型,它构建于像素级统一Transformer(UiT) 之上——无需外部 VAE,无需分离的文本编码器。它在单一共享令牌空间中对原始像素、文本和特定任务条件进行编码,支持:
仅需 90 亿参数,它即可媲美甚至超越许多更大规模的开源 DiT 以及领先的闭源模型。它在 “Artificial Analysis 文本到图像竞技场”(2026-05-05)中首次亮相便获得第 8 名。
| 仓库 | 精度 | 显存 | 推理步数 |
|---|---|---|---|
| drbaph/HiDream-O1-Image-BF16 | BF16 | 17–20 GB | 50 |
| drbaph/HiDream-O1-Image-FP16 | FP16 | 17–20 GB | 50 |
| drbaph/HiDream-O1-Image-FP8 (本仓库) | FP8 混合 | ~10 GB | 50 |
| HiDream-ai/HiDream-O1-Image | 原始 | — | 50 |
| HiDream-ai/HiDream-O1-Image-Dev | 原始开发版 | — | 28 |
GenEval(组合生成)——在90亿参数规模下,HiDream-O1-Image的总体得分为0.90,仅次于2000亿参数以上的Pro变体,并领先于GPT Image 2(0.89)。
DPG-Bench(密集提示对齐)——总体得分89.83,排名第二,仅次于Pro变体。
HPSv3(人类偏好)——总体得分10.37,性能优于GPT Image 2(10.21)和Nano Banana 2.0(10.01)。
原始HiDream-O1-Image模型及代码基于MIT许可证发布。本FP8量化版本继承相同许可证。