H
HiDream-ai/HiDream-O1-Image
模型介绍文件和版本分析
下载使用量0

HiDream-O1-Image

HiDream-O1-Image 是一款基于像素级统一 Transformer(UiT)构建的原生统一图像生成基础模型,无需外部 VAE 或独立文本编码器。它能在单一共享令牌空间中原生编码原始像素、文本和特定任务条件,支持文本到图像生成、图像编辑以及主题驱动的个性化创作,分辨率最高可达 2,048 × 2,048。

项目更新

  • 🚀 2026年5月14日:我们开源了 HiDream-O1-Image-Dev-2604 及其 提示优化器,专为文本到图像生成任务量身打造。
  • 🛠️ 2026年5月13日:推理与流水线更新——加速了 IP 推理;IP 流水线现已支持 布局 和 骨架 条件控制;更新了 Dev 编辑调度器。对于编辑任务,我们建议使用 完整 模型。不推荐使用 PyTorch 2.9.x 版本,原因是存在 相关问题。
  • 🤗 2026年5月10日:可在 Hugging Face Spaces 在线体验 HiDream-O1-Image——🤗 HiDream-O1-Image 和 🤗 HiDream-O1-Image-Dev。
  • 📕 2026年5月10日:我们的 技术报告 现已发布——📑 HiDream-O1-Image.pdf。
  • 🚀 2026年5月8日:我们开源了 HiDream-O1-Image(8B),包括未蒸馏和蒸馏的 Dev 变体,以及推理驱动提示代理。

HiDream-O1-Image-Dev-2604 在 Artificial Analysis 文本到图像竞技场中首次亮相即位列第 8,有望成为新的领先开源文本到图像模型。

Artificial Analysis Text to Image Arena
Artificial Analysis 文本到图像竞技场,分辨率最高达 2,048 × 2,048。

General text-to-image generation
通用文本到图像生成,分辨率最高达 2,048 × 2,048。

Long-text rendering and layout
长文本渲染与布局控制——精准、多区域、多语言文本。

Subject-driven personalization
主题驱动的个性化创作——在新场景中保持身份/IP 特征。

核心特性

  • 🧬 像素级统一Transformer — 基于原始像素的端到端模型,无需VAE,无需独立文本编码器。
  • 🎨 一模型多任务 — 单一架构支持文本生成图像、长文本渲染、指令编辑、主体驱动个性化及故事板生成。
  • 🧠 推理驱动提示代理 — 内置"思考"代理,在生成前解析隐含知识、布局和文本渲染需求。
  • 🖼️ 原生高分辨率 — 直接合成高达2048×2048像素的图像,细节锐利精细。
  • ⚡ 80亿参数规模下的卓越效率与多功能性 — 仅80亿参数,性能与更大规模的开源DiT模型及领先闭源模型相当甚至超越。

模型

名称脚本推理步数HuggingFace仓库
HiDream-O1-Imageinference.py50🤗 HiDream-O1-Image
HiDream-O1-Image-Devinference.py28🤗 HiDream-O1-Image-Dev
Prompt Agentprompt_agent.py—🤗 google/gemma-4-31B-it
Web Demoapp.py——
HiDream-O1-Image-Dev-2604inference.py (dev branch)28🤗 HiDream-O1-Image-Dev-2604
Prompt Agent 2604prompt_agent_v2.py (dev branch)—🤗 HiDream-ai/Prompt-Refine

评估

我们在五个广泛使用的评估套件上,将HiDream-O1-Image与最先进的开源和专有模型进行基准测试,涵盖组合生成、密集提示对齐、人类偏好、复杂视觉文本生成和长文本渲染。每个表格中,最佳结果以粗体突出显示,次佳结果以下划线标注。点击下方任意基准可展开或折叠。

GenEval — 组合生成
模型参数数量单物体双物体数量颜色位置属性总体
Nano Banana 2.0–1.000.960.710.840.860.650.83
Seedream-4.0–1.000.920.710.930.780.680.84
GPT Image 1 [High]–0.990.920.850.920.750.610.84
GPT Image 2–0.990.980.850.930.850.770.89
PixArt43亿 + 6亿0.980.500.440.800.080.070.48
Show-o13亿0.950.520.490.820.110.280.53
Emu3-Gen80亿0.980.710.340.810.170.210.54
SD3-Medium55亿 + 20亿0.980.740.630.670.340.360.62
JanusFlow13亿0.970.590.450.830.530.420.63
FLUX.1 [Dev]48亿 + 120亿0.980.810.740.790.220.450.66
SD3.5 Large55亿 + 81亿0.980.890.730.830.340.470.71
Janus-Pro-7B70亿0.990.890.590.900.790.660.80
Z-Image-Turbo40亿 + 60亿1.000.950.770.890.650.680.82
FLUX.2 [Dev]240亿 + 320亿1.000.990.790.930.730.780.87
Qwen-Image70亿 + 200亿0.990.920.890.880.760.770.87
HiDream-O1-Image80亿1.000.990.790.890.930.780.90
HiDream-O1-Image-Pro2000亿+1.000.990.850.940.940.790.92
DPG-Bench — 密集提示对齐
模型参数数量全局实体属性关系其他总体
GPT Image 1 [High]–88.8988.9489.8492.6390.9685.15
GPT Image 2–87.2791.9190.8591.5991.5885.98
Nano Banana 2.0–85.1792.5591.1690.4591.0886.90
Seedream-4.0–87.1792.4192.2993.3395.4888.63
SD v1.51.2亿 + 8.6亿74.6374.2375.3973.4967.8163.18
PixArt43亿 + 6亿74.9779.3278.6082.5776.9671.11
Lumina-Next20亿 + 20亿82.8288.6586.4480.5381.8274.63
SDXL8.1亿 + 26亿83.2782.4380.9186.7680.4174.65
Hunyuan-DiT48亿 + 15亿84.5980.5988.0174.3686.4178.87
Emu3-Gen80亿85.2186.6886.8490.2283.1580.60
DALL-E 3–90.9789.6188.3990.5889.8383.50
FLUX.1 [Dev]48亿 + 120亿74.3590.0088.9690.8788.3383.84
SD3 Medium55亿 + 20亿87.9091.0188.8380.7088.6884.08
Janus-Pro-7B70亿86.9088.9089.4089.3289.4884.19
Z-Image-Turbo40亿 + 60亿91.2989.5990.1492.1688.6884.86
HiDream-I1-Full135亿 + 170亿76.4490.2289.4893.7491.8385.89
FLUX.2 [Dev]240亿 + 320亿92.2091.3693.2893.5289.7287.57
Qwen-Image70亿 + 200亿91.3291.5692.0294.3192.7388.32
HiDream-O1-Image80亿95.1592.3293.7492.8890.2589.83
HiDream-O1-Image-Pro2000亿+94.9795.4292.5990.8289.5090.30
HPSv3 — 12个类别的人类偏好
模型参数数量总体人物艺术设计建筑动物自然风景交通工具产品植物食物科学其他
Seedream-4.0–9.329.839.208.839.958.999.409.589.129.269.759.119.51
Nano Banana 2.0–10.0110.189.189.5810.969.7110.0410.3810.3610.1410.619.149.89
GPT Image 2–10.2110.759.9110.1510.5910.0510.2910.1710.2610.0710.75a10.0510.00
Z-Image-Turbo40亿 + 60亿8.358.988.297.659.268.518.338.817.838.468.647.938.57
FLUX.2 [Dev]240亿 + 320亿9.2810.239.568.809.739.439.219.448.939.239.828.679.11
Qwen-Image70亿 + 200亿9.9410.9110.479.5610.2210.619.8710.109.159.9910.089.199.83
HiDream-O1-Image80亿10.3710.5910.4410.2911.0210.3410.3710.5410.5010.3810.859.6810.09
HiDream-O1-Image-Pro2000亿+10.4710.6310.5110.3311.1110.0810.4510.3710.7510.2911.1310.0910.39
CVTG-2K — 复杂视觉文本生成(点击展开)
模型参数数量2区域3区域4区域5区域平均值NEDCLIP分数
Nano Banana 2.0–0.74650.77200.80670.79800.78750.89450.7212
GPT Image 1 [High]–0.87790.86590.87310.82180.85690.94780.7982
Seedream-4.0–0.89800.89490.90440.90150.90030.95110.8033
GPT Image 2–0.89040.88870.91010.90440.90030.95150.7798
TextDiffuser-21.2亿 + 9亿0.53220.32550.17870.08090.23260.43530.6765
RAG-Diffusion48亿 + 120亿0.43880.33160.21160.19100.26480.44980.7797
AnyText1.23亿 + 12亿0.05130.17390.19480.22490.18040.46750.7432
3DIS8.1亿 + 26亿0.44950.39590.38800.33030.38130.65050.7767
FLUX.1 [Dev]48亿 + 120亿0.60890.55310.46610.43160.49650.68790.7401
SD3.5 Large55亿 + 81亿0.72930.68250.65740.59400.65480.84700.7797
TextCrafter70亿 + 200亿0.76280.76280.74060.69770.73700.86790.7868
Qwen-Image70亿 + 200亿0.83700.83640.83130.81580.82880.91160.8017
Z-Image-Turbo40亿 + 60亿0.88720.86620.86280.83470.85850.92810.8048
FLUX.2 [Dev]240亿 + 320亿0.92610.88970.89950.87320.89260.94750.8104
HiDream-O1-Image80亿0.90850.91590.92160.90150.91280.95610.8076
HiDream-O1-Image-Pro2000亿+0.91330.92210.93650.91750.92220.96280.8349
LongText-Bench — 长文本渲染,中英文(点击展开)
模型参数数量LongText-Bench-ENLongText-Bench-ZH
Seedream-4.0–0.9360.946
GPT Image 1 [High]–0.9560.619
GPT Image 2–0.9600.961
Nano Banana 2.0–0.9800.965
Janus-Pro-7B70亿0.0190.006
BLIP3-o70亿 + 14亿0.0210.018
Kolors 2.0–0.2580.329
BAGEL70亿 + 70亿0.3730.310
OmniGen230亿 + 40亿0.5610.059
X-Omni70亿0.9000.814
HiDream-I1-Full135亿 + 170亿0.5430.024
FLUX.1 [Dev]48亿 + 120亿0.6070.005
Z-Image-Turbo40亿 + 60亿0.9170.926
FLUX.2 [Dev]240亿 + 320亿0.9630.757
Qwen-Image70亿 + 200亿0.9430.946
HiDream-O1-Image80亿0.9790.978
HiDream-O1-Image-Pro2000亿+0.9820.980

安装

  1. 克隆此仓库:
git clone https://github.com/HiDream-ai/HiDream-O1-Image.git
cd HiDream-O1-Image
  1. 安装所需的依赖项:
pip install -r requirements.txt

关于 flash-attn 的说明:我们强烈建议安装 flash-attn 以实现优化的注意力计算。如果您不安装(或无法安装)flash-attn,则必须编辑 models/pipeline.py 的第 341 行,将 "use_flash_attn": True 修改为 "use_flash_attn": False——否则推理过程将无法导入内核。

推理驱动提示词代理

HiDream-O1-Image 内置了推理驱动提示词代理(prompt_agent.py),该代理会明确地对布局、主体属性、物理逻辑和文本渲染细节进行推理,然后将原始用户指令重写为一个自包含的英文提示词。它支持两种后端——通过 --backend 选择其一。

该代理会输出一个包含三个字段的 JSON 对象:prompt(重写后的英文提示词)、reasoning(推理过程)和 resolved_knowledge(已解析知识)。将 prompt 字段输入 inference.py,可在复杂、推理密集型请求上获得最佳结果。

选项 A — 本地后端(Gemma-4-31B-it)

  1. 下载 Gemma 权重(需要在 HuggingFace 上接受 Gemma 许可):
huggingface-cli download google/gemma-4-31B-it --local-dir /path/to/gemma-4-31B-it
  1. 本地运行优化器:
python prompt_agent.py \
    --backend local \
    --model_id /path/to/gemma-4-31B-it \
    --prompt "李白的静夜思写在古墙上"

选项 B — 外部 OpenAI 兼容 API

通过提供 --base_url、--api_key 和 --model_name,使用任何 OpenAI 兼容的端点(OpenAI、Azure、vLLM、SGLang、DeepSeek 等):

python prompt_agent.py \
    --backend api \
    --base_url https://api.openai.com/v1 \
    --api_key $OPENAI_API_KEY \
    --model_name deepseek-v4-pro \
    --prompt "李白的静夜思写在古墙上"

使用方法

推理需要具备 CUDA 能力的 GPU。以下示例使用未蒸馏模型(--model_type full);有关使用蒸馏模型(--model_type dev)运行相同任务的信息,请参见最后一小节。

1. 文本到图像生成

根据文本提示生成图像:

python inference.py \
    --model_path /path/to/HiDream-O1-Image \
    --prompt "medium shot, eye-level, front view. A woman is seated in an ornate bedroom, illuminated by candlelight, with a calm and composed expression. The subject is a young woman with fair skin, light brown hair styled in an updo with loose tendrils framing her face, and blue eyes. She wears a cream-colored satin robe with delicate floral embroidery and lace trim along the neckline. Her ears are adorned with pearl drop earrings. She is seated on a bed with a dark, intricately carved wooden headboard. To her left, a wooden nightstand holds three lit white candles and a candelabra with multiple lit candles in the background. The bed is covered with patterned pillows and a dark, textured blanket. The walls are paneled with dark wood and feature a large, ornate tapestry with muted earth tones. The lighting creates soft highlights on her face and robe, with warm shadows cast across the room." \
    --output_image results/t2i.png \
    --height 2048 \
    --width 2048

2. 基于指令的图像编辑

提供一张参考图像和一条编辑指令:

python inference.py \
    --model_path /path/to/HiDream-O1-Image \
    --prompt "remove the earphones" \
    --ref_images assets/edit/test.jpg \
    --output_image results/edit.png \
    --keep_original_aspect

3. 多参考主体驱动的个性化定制

提供两张或更多定义主体的参考图像,以及一个将它们置于新场景中的提示词:

python inference.py \
    --model_path /path/to/HiDream-O1-Image \
    --shift 1 \
    --prompt "A young boy with blonde hair stands on steps wearing light blue jeans, a white t-shirt with logo, and blue and white sneakers. He wears a brown cord necklace with beads, a black wristwatch with digital display, and carries a yellow fanny pack with white zipper. In his hand is a red boxing glove with white top, a teal plastic toy car, and a plastic toy figure of Captain America. He wears a straw hat with cream band. Natural light illuminates the scene." \
    --ref_images assets/IP/1.jpg assets/IP/2.jpg assets/IP/3.jpg assets/IP/4.jpg assets/IP/5.jpg assets/IP/6.jpg assets/IP/7.jpg assets/IP/8.jpg assets/IP/9.jpg assets/IP/10.jpg \
    --output_image results/subject.png

4. 基于骨架的多参考主体驱动个性化

python inference.py \
    --model_path /path/to/HiDream-O1-Image \
    --shift 1 \
    --seed 42 \
    --prompt "Create a realistic try-on image of the person wearing the provided clothing." \
    --ref_images assets/IP_skeleton/0.face.jpg assets/IP_skeleton/0.bg.jpg assets/IP_skeleton/0.openpose.jpg assets/IP_skeleton/0.part_1.jpg assets/IP_skeleton/0.part_2.jpg assets/IP_skeleton/0.part_3.jpg  \
    --output_image results/subject.png

5. 带布局的多参考主体驱动个性化

python inference.py \
    --model_path /path/to/HiDream-O1-Image \
    --shift 1 \
    --seed 42 \
    --prompt "City council members pose with relaxed smiles on a sunlit terrace, warm approachable mood, golden hour, cinematic soft glow." \
    --ref_images assets/IP_layout/0.jpg assets/IP_layout/1.jpg \
    --layout_bboxes "[[0.20507812, 0.43945312, 0.48828125, 0.7421875 ], [0.57617188, 0.80078125, 0.08789062, 0.34179688]]" \
    --output_image results/ip_layout.png

6. 使用开发模型运行

上述所有三个任务都可以通过将 --model_path 切换到开发检查点并设置 --model_type dev 来使用 Dev 模型运行。例如:

python inference.py \
    --model_path /path/to/HiDream-O1-Image-Dev \
    --prompt "A dog holds a sign that says \"HiDream-O1-Image release.\"" \
    --output_image results/t2i_dev.png \
    --model_type dev

对于编辑任务(精确对应一张参考图像),Dev模型默认使用flow_match调度器。建议在编辑任务中使用flow_match。若要改用flash调度器,请传递--editing_scheduler flash。此标志对full模型或非编辑任务无效。

命令行参数

  • --model_path:完整HuggingFace模型目录的路径(未蒸馏或已蒸馏)。
  • --prompt:用于生成或编辑任务的文本提示。
  • --ref_images:一张或多张参考图像的路径(可选;以空格分隔)。
  • --output_image:保存生成图像的路径(默认:output.png)。
  • --height / --width:输出图像尺寸(默认:2048 × 2048;内部会自动调整为有效分辨率)。
  • --model_type:full 或 dev(默认:full)。选择推理方案:
    • full:50步,引导尺度 5.0,偏移 3.0,默认调度器。
    • dev:28步,引导尺度 0.0,偏移 1.0,带有预定义时间步的flash调度器。对于编辑任务(精确对应一张参考图像),默认调度器为flow_match——详见--editing_scheduler。
  • --seed:随机种子(默认:32)。
  • --guidance_scale:引导尺度(默认:5.0)。仅当--model_type为full时有效。
  • --noise_scale_start、--noise_scale_end:控制调度器在每个去噪步骤中注入的噪声尺度;每一步的尺度从noise_scale_start(第一步)到noise_scale_end(最后一步)进行线性插值。详见models/pipeline.py:313(初始噪声)和models/pipeline.py:323-326(每步线性插值)。默认值:7.5、7.5。
  • --noise_clip_std:在调度器步进过程中对添加的噪声应用的每步裁剪阈值(以注入噪声的标准差为单位)。详见models/flash_scheduler.py:350-354。默认值:2.5。
  • --editing_scheduler:当--model_type为dev时,用于编辑任务(精确对应一张参考图像)的调度器。选项:flow_match(默认)或flash。对full模型和非编辑任务无效。
  • --keep_original_aspect:当提供精确一张参考图像时,如果设为True,则将其调整为max_size=2048并使用其尺寸作为目标图像尺寸(保留参考图像的宽高比)。

Web 演示

app.py 是一个单文件 Flask Web 用户界面(内嵌 HTML/CSS/JS),可支持所有生成模式。它还集成了推理驱动提示代理。

启动服务器

python app.py \
    --model_path /path/to/HiDream-O1-Image \
    --host 0.0.0.0 \
    --port 7860

然后在浏览器中打开 http://localhost:7860。

命令行参数

参数默认值描述
--model_path$HIDREAM_MODEL_PATH检查点目录的路径(HiDream-O1-Image 或 HiDream-O1-Image-Dev)。
--model_typefullfull(50 步)或 dev(28 步)。
--host0.0.0.0Flask 服务器的绑定地址。
--port7860Flask 服务器的端口。

上述所有四个 CLI 参数也可以通过环境变量进行设置(参见 .env.example):HIDREAM_MODEL_PATH、HIDREAM_MODEL_TYPE、HIDREAM_HOST 和 HIDREAM_PORT。

Web 演示中的 Prompt Agent 面板会从 .env 读取其他环境变量:

环境变量使用者描述
HIDREAM_AGENT_MODEL本地 · Gemma 后端本地 Gemma 权重的路径或 HF 仓库 ID。
OPENAI_BASE_URLOpenAI 兼容 API 后端UI 中预填充的默认基础 URL。
OPENAI_API_KEYOpenAI 兼容 API 后端UI 中预填充的默认 API 密钥。
OPENAI_MODELOpenAI 兼容 API 后端UI 中预填充的默认模型名称。

UI 中的 Prompt Agent

侧边栏包含一个 Prompt Agent 面板,该面板调用与 prompt_agent.py 相同的推理驱动型 Prompt Agent。选择 OpenAI 兼容 API 后端(任何端点、密钥和模型名称)或 本地 · Gemma 后端(在 .env 或环境中设置 HIDREAM_AGENT_MODEL,指向本地 Gemma-4-31B-it 权重)。

编辑调度器(仅开发模型)

当服务器以 --model_type dev 启动时,编辑 选项卡会显示一个 调度器 下拉菜单,包含两个选项:flow_match(默认)和 flash。对于 full 模型以及“文本→图像”/“主体”选项卡,此选择器会隐藏,因为这些情况下调度器是固定的。

许可证

本仓库中的代码以及 HiDream-O1-Image 模型均采用 MIT 许可证。

引用

@article{hidreamolimage,
  title={HiDream-O1-Image: A Natively Unified Image Generative Foundation Model with Pixel-level Unified Transformer},
  author={Cai, Qi and Chen, Jingwen and Gao, Chengmin and Gong, Zijian and Li, Yehao and Mei, Tao and Pan, Yingwei and Peng, Yi and Qiu, Zhaofan and Yao, Ting and Yu, Kai and Zhang, Yiheng and others},
  journal={arXiv preprint arXiv:2605.11061},
  year={2026}
}