这是 HiDream-ai/HiDream-O1-Image-Dev 的FP8 混合精度量化版本,后者是 HiDream-O1-Image 的蒸馏变体,适用于ComfyUI。这是最易获取的变体:仅需约 10 GB 显存和28 步推理,使其成为本地运行 HiDream O1 最快的方式。

自定义 ComfyUI 节点: Saganaki22/HiDream_O1-ComfyUI

| Full 模型 | Dev 模型(本仓库) | |
|---|---|---|
| 推理步数 | 50 | 28 |
| 引导尺度(CFG) | 5.0 | 0.0(已禁用) |
| 偏移量 | 3.0 | 1.0 |
| 调度器 | FlowUniPCMultistepScheduler | FlashFlowMatchEulerDiscreteScheduler |
| 速度 | 较慢,细节更丰富 | 约快 2 倍 |
Dev 模型采用了自定义 Euler 调度器,内置针对较少步数优化的噪声缩放。CFG 已禁用,因此在 Dev 模式下负面提示无效果。
| 精度 | 大致显存占用 |
|---|---|
| BF16 | 17 – 20 GB |
| FP16 | 17 – 20 GB |
| FP8 混合精度(本仓库) | 约 10 GB |
对于显存小于 16 GB 的 GPU,推荐使用此变体。结合 Dev 模型的 28 步调度,它是运行 HiDream O1 成本最低的方式——大约比完整 BF16 模型快 2 倍,显存占用减少一半。
什么是 FP8 混合精度? 权重以
float8_e4m3fn格式存储。敏感层(归一化层、嵌入层、输出头)保留更高精度以确保稳定性。在 RTX 40xx / H100(Hopper/Ada)上,FP8 计算可实现硬件加速。在较旧的 GPU 上,权重会动态反量化——仍能节省显存,但会有小幅速度损失。请勿将config.json中的 dtype 设置为float8_e4m3fn,保持为bfloat16即可——节点会直接从 safetensors 张量中检测 FP8 格式。
cd ComfyUI/custom_nodes
git clone https://github.com/Saganaki22/HiDream_O1-ComfyUI.git
cd HiDream_O1-ComfyUI
python -m pip install -r requirements.txt或者在 ComfyUI Manager 中搜索 HiDream O1。
建议的 transformers 版本:4.57.1 – 5.3(较新版本可能会破坏兼容性)。
下载整个模型文件夹(所有文件,不仅仅是 safetensors)并将其放置在 ComfyUI/models/diffusion_models/ 中:
huggingface-cli download drbaph/HiDream-O1-Image-Dev-FP8 \
--local-dir ComfyUI/models/diffusion_models/HiDream-O1-Image-Dev-fp8该文件夹必须包含完整的 Hugging Face 支持文件以及权重文件:
config.json、chat_template.json、generation_config.json、preprocessor_config.json、tokenizer.json、tokenizer_config.json、vocab.json、merges.txt、model.safetensors
使用自定义节点仓库中提供的工作流。加载器会检测文件夹名称中的“dev”并自动应用开发版设置(28 步,无 CFG,Euler 调度器)。将模型加载器指向 HiDream-O1-Image-Dev-fp8。
要在支持的硬件上实现最快推理速度,请在模型加载器节点中将精度设置为 fp8_e4m3fn_fast。
HiDream-O1-Image 是一款基于像素级统一 Transformer(UiT) 构建的原生统一图像生成基础模型——无需外部 VAE,无需分离的文本编码器。它在单一共享令牌空间中对原始像素、文本和特定任务条件进行编码,支持:
仅 90 亿参数,其性能即可媲美甚至超越许多更大规模的开源 DiT 以及领先的闭源模型。它在 “Artificial Analysis 文本到图像竞技场”(2026-05-05)中首次亮相即获得第 8 名。
| 仓库 | 精度 | 显存 | 步数 |
|---|---|---|---|
| drbaph/HiDream-O1-Image-BF16 | BF16 | 17–20 GB | 50 |
| drbaph/HiDream-O1-Image-FP16 | FP16 | 17–20 GB | 50 |
| drbaph/HiDream-O1-Image-FP8 | FP8 混合精度 | ~10 GB | 50 |
| 仓库 | 精度 | 显存 | 步数 |
|---|---|---|---|
| drbaph/HiDream-O1-Image-Dev-BF16 | BF16 | 17–20 GB | 28 |
| drbaph/HiDream-O1-Image-Dev-FP16 | FP16 | 17–20 GB | 28 |
| drbaph/HiDream-O1-Image-Dev-FP8 (本仓库) | FP8 混合精度 | ~10 GB | 28 |
原始 HiDream-O1-Image 模型及代码基于 MIT 许可证发布。本 FP8 量化版本继承相同许可证。