HiDream-O1-Image-Dev — FP8 混合精度（ComfyUI）

这是 HiDream-ai/HiDream-O1-Image-Dev 的FP8 混合精度量化版本，后者是 HiDream-O1-Image 的蒸馏变体，适用于ComfyUI。这是最易获取的变体：仅需约 10 GB 显存和28 步推理，使其成为本地运行 HiDream O1 最快的方式。

自定义 ComfyUI 节点： Saganaki22/HiDream_O1-ComfyUI

Screenshot 2026-05-10 005045

Dev 版与 Full 版 — 主要区别

	Full 模型	Dev 模型（本仓库）
推理步数	50	28
引导尺度（CFG）	5.0	0.0（已禁用）
偏移量	3.0	1.0
调度器	FlowUniPCMultistepScheduler	FlashFlowMatchEulerDiscreteScheduler
速度	较慢，细节更丰富	约快 2 倍

Dev 模型采用了自定义 Euler 调度器，内置针对较少步数优化的噪声缩放。CFG 已禁用，因此在 Dev 模式下负面提示无效果。

显存要求

精度	大致显存占用
BF16	17 – 20 GB
FP16	17 – 20 GB
FP8 混合精度（本仓库）	约 10 GB

对于显存小于 16 GB 的 GPU，推荐使用此变体。结合 Dev 模型的 28 步调度，它是运行 HiDream O1 成本最低的方式——大约比完整 BF16 模型快 2 倍，显存占用减少一半。

什么是 FP8 混合精度？ 权重以 float8_e4m3fn 格式存储。敏感层（归一化层、嵌入层、输出头）保留更高精度以确保稳定性。在 RTX 40xx / H100（Hopper/Ada）上，FP8 计算可实现硬件加速。在较旧的 GPU 上，权重会动态反量化——仍能节省显存，但会有小幅速度损失。请勿将 config.json 中的 dtype 设置为 float8_e4m3fn，保持为 bfloat16 即可——节点会直接从 safetensors 张量中检测 FP8 格式。

快速开始 — ComfyUI

1. 安装自定义节点

cd ComfyUI/custom_nodes
git clone https://github.com/Saganaki22/HiDream_O1-ComfyUI.git
cd HiDream_O1-ComfyUI
python -m pip install -r requirements.txt

或者在 ComfyUI Manager 中搜索 HiDream O1。

建议的 transformers 版本：4.57.1 – 5.3（较新版本可能会破坏兼容性）。

2. 下载权重

下载整个模型文件夹（所有文件，不仅仅是 safetensors）并将其放置在 ComfyUI/models/diffusion_models/ 中：

huggingface-cli download drbaph/HiDream-O1-Image-Dev-FP8 \
    --local-dir ComfyUI/models/diffusion_models/HiDream-O1-Image-Dev-fp8

该文件夹必须包含完整的 Hugging Face 支持文件以及权重文件： config.json、chat_template.json、generation_config.json、preprocessor_config.json、tokenizer.json、tokenizer_config.json、vocab.json、merges.txt、model.safetensors

3. 在 ComfyUI 中加载

使用自定义节点仓库中提供的工作流。加载器会检测文件夹名称中的“dev”并自动应用开发版设置（28 步，无 CFG，Euler 调度器）。将模型加载器指向 HiDream-O1-Image-Dev-fp8。

要在支持的硬件上实现最快推理速度，请在模型加载器节点中将精度设置为 fp8_e4m3fn_fast。

关于 HiDream-O1-Image

HiDream-O1-Image 是一款基于像素级统一 Transformer（UiT） 构建的原生统一图像生成基础模型——无需外部 VAE，无需分离的文本编码器。它在单一共享令牌空间中对原始像素、文本和特定任务条件进行编码，支持：

文本到图像生成，分辨率高达 2048 × 2048
基于指令的图像编辑
主题驱动的个性化（多参考 IP）
长文本和多语言文本渲染

仅 90 亿参数，其性能即可媲美甚至超越许多更大规模的开源 DiT 以及领先的闭源模型。它在 “Artificial Analysis 文本到图像竞技场”（2026-05-05）中首次亮相即获得第 8 名。

主要特性

🧬 像素级统一 Transformer — 端到端处理原始像素，无需 VAE，无需分离的文本编码器
🎨 一模型，多任务 — 支持文本到图像生成、编辑、个性化、故事板生成
⚡ 28 步蒸馏开发版 — 比完整模型快约 2 倍，质量损失极小
💾 FP8 量化 — 显存占用约为全精度变体的一半
🖼️ 原生高分辨率 — 直接合成分辨率高达 2048 × 2048

所有模型变体

完整模型

仓库	精度	显存	步数
drbaph/HiDream-O1-Image-BF16	BF16	17–20 GB	50
drbaph/HiDream-O1-Image-FP16	FP16	17–20 GB	50
drbaph/HiDream-O1-Image-FP8	FP8 混合精度	~10 GB	50

开发模型（蒸馏版，速度更快）

仓库	精度	显存	步数
drbaph/HiDream-O1-Image-Dev-BF16	BF16	17–20 GB	28
drbaph/HiDream-O1-Image-Dev-FP16	FP16	17–20 GB	28
drbaph/HiDream-O1-Image-Dev-FP8 （本仓库）	FP8 混合精度	~10 GB	28

许可证

原始 HiDream-O1-Image 模型及代码基于 MIT 许可证发布。本 FP8 量化版本继承相同许可证。

链接

🔗 原始开发模型：HiDream-ai/HiDream-O1-Image-Dev
🔗 原始完整模型：HiDream-ai/HiDream-O1-Image
🔧 ComfyUI 节点：Saganaki22/HiDream_O1-ComfyUI
📑 技术报告：HiDream-O1-Image.pdf
🤗 在线演示：HiDream-O1-Image-Dev Space