
HiDream-I1 是一款全新的开源图像生成基础模型,拥有170亿参数,可在数秒内生成达到业界领先水平的图像质量。
如需了解更多功能并体验产品的全部能力,请访问 https://vivago.ai/。
请确保已安装 Flash Attention。我们建议手动安装时使用 CUDA 12.4 版本。
pip install -r requirements.txt克隆 GitHub 仓库:
git clone https://github.com/HiDream-ai/HiDream-I1然后您可以运行推理脚本以生成图像:
# For full model inference
python ./inference.py --model_type full
# For distilled dev model inference
python ./inference.py --model_type dev
# For distilled fast model inference
python ./inference.py --model_type fast注意: 推理脚本会自动下载
meta-llama/Meta-Llama-3.1-8B-Instruct模型文件。如果遇到网络问题,您可以提前下载这些文件并将其放置在适当的缓存目录中,以避免推理过程中下载失败。
我们还提供了一个 Gradio 演示,用于交互式图像生成。您可以通过以下命令运行演示:
python gradio_demo.py | 模型 | 总体 | 全局 | 实体 | 属性 | 关系 | 其他 |
|---|---|---|---|---|---|---|
| PixArt-alpha | 71.11 | 74.97 | 79.32 | 78.60 | 82.57 | 76.96 |
| SDXL | 74.65 | 83.27 | 82.43 | 80.91 | 86.76 | 80.41 |
| DALL-E 3 | 83.50 | 90.97 | 89.61 | 88.39 | 90.58 | 89.83 |
| Flux.1-dev | 83.79 | 85.80 | 86.79 | 89.98 | 90.04 | 89.90 |
| SD3-Medium | 84.08 | 87.90 | 91.01 | 88.83 | 80.70 | 88.68 |
| Janus-Pro-7B | 84.19 | 86.90 | 88.90 | 89.40 | 89.32 | 89.48 |
| CogView4-6B | 85.13 | 83.85 | 90.35 | 91.17 | 91.14 | 87.29 |
| HiDream-I1 | 85.89 | 76.44 | 90.22 | 89.48 | 93.74 | 91.83 |
| 模型 | 总体 | 单个物体 | 两个物体 | 计数 | 颜色 | 位置 | 颜色属性 |
|---|---|---|---|---|---|---|---|
| SDXL | 0.55 | 0.98 | 0.74 | 0.39 | 0.85 | 0.15 | 0.23 |
| PixArt-alpha | 0.48 | 0.98 | 0.50 | 0.44 | 0.80 | 0.08 | 0.07 |
| Flux.1-dev | 0.66 | 0.98 | 0.79 | 0.73 | 0.77 | 0.22 | 0.45 |
| DALL-E 3 | 0.67 | 0.96 | 0.87 | 0.47 | 0.83 | 0.43 | 0.45 |
| CogView4-6B | 0.73 | 0.99 | 0.86 | 0.66 | 0.79 | 0.48 | 0.58 |
| SD3-Medium | 0.74 | 0.99 | 0.94 | 0.72 | 0.89 | 0.33 | 0.60 |
| Janus-Pro-7B | 0.80 | 0.99 | 0.89 | 0.59 | 0.90 | 0.79 | 0.66 |
| HiDream-I1 | 0.83 | 1.00 | 0.98 | 0.79 | 0.91 | 0.60 | 0.72 |
| 模型 | 平均值 | 动画 | 概念艺术 | 绘画 | 照片 |
|---|---|---|---|---|---|
| Stable Diffusion v2.0 | 26.38 | 27.09 | 26.02 | 25.68 | 26.73 |
| Midjourney V6 | 30.29 | 32.02 | 30.29 | 29.74 | 29.10 |
| SDXL | 30.64 | 32.84 | 31.36 | 30.86 | 27.48 |
| Dall-E3 | 31.44 | 32.39 | 31.09 | 31.18 | 31.09 |
| SD3 | 31.53 | 32.60 | 31.82 | 32.06 | 29.62 |
| Midjourney V5 | 32.33 | 34.05 | 32.47 | 32.24 | 30.56 |
| CogView4-6B | 32.31 | 33.23 | 32.60 | 32.89 | 30.52 |
| Flux.1-dev | 32.47 | 33.87 | 32.27 | 32.62 | 31.11 |
| stable cascade | 32.95 | 34.58 | 33.13 | 33.29 | 30.78 |
| HiDream-I1 | 33.82 | 35.05 | 33.74 | 33.88 | 32.61 |
本仓库中的 Transformer 模型采用 MIT 许可协议。VAE 来自 FLUX.1 [schnell],文本编码器来自 google/t5-v1_1-xxl 和 meta-llama/Meta-Llama-3.1-8B-Instruct。请遵循这些组件指定的许可条款。您拥有使用本模型创建的所有内容的所有权。您可以自由使用生成的内容,但必须遵守本许可协议。您对模型的使用方式负责。不得创建非法内容、有害材料、可能伤害他人的个人信息、虚假信息或针对弱势群体的内容。
FLUX.1 [schnell],采用 Apache 2.0 许可协议。google/t5-v1_1-xxl(采用 Apache 2.0 许可协议)和 meta-llama/Meta-Llama-3.1-8B-Instruct(采用 Llama 3.1 社区许可协议)。@article{hidreami1technicalreport,
title={HiDream-I1: A High-Efficient Image Generative Foundation Model with Sparse Diffusion Transformer},
author={Cai, Qi and Chen, Jingwen and Chen, Yang and Li, Yehao and Long, Fuchen and Pan, Yingwei and Qiu, Zhaofan and Zhang, Yiheng and Gao, Fengbin and Xu, Peihan and others},
journal={arXiv preprint arXiv:2505.22705},
year={2025}
}