HuggingFace镜像/HiDream-I1-Full
模型介绍文件和版本分析
下载使用量0

HiDream-I1 Demo

HiDream-I1 是一款全新的开源图像生成基础模型,拥有170亿参数,可在数秒内生成达到业界领先水平的图像质量。

如需了解更多功能并体验产品的全部能力,请访问 https://vivago.ai/。

项目更新

  • 🌟 2025年7月16日:我们开源了更新后的图像编辑模型 HiDream-E1.1。
  • 📝 2025年5月28日:我们发布了技术报告 HiDream-I1: A High-Efficient Image Generative Foundation Model with Sparse Diffusion Transformer。
  • 🚀 2025年4月28日:我们开源了基于指令的图像编辑模型 HiDream-E1-Full。可在 https://huggingface.co/spaces/HiDream-ai/HiDream-E1-Full 体验!

核心特性

  • ✨ 卓越图像质量 - 在多种风格(包括写实、卡通、艺术等)上均能生成出色结果。HPS v2.1 评分达到业界领先水平,与人类偏好高度一致。
  • 🎯 业界领先的提示词遵循能力 - 在 GenEval 和 DPG 基准测试中取得行业领先分数,性能超越所有其他开源模型。
  • 🔓 开源开放 - 基于 MIT 许可证发布,旨在促进科学进步并激发创新。
  • 💼 商业友好 - 生成的图像可自由用于个人项目、科学研究及商业应用。

快速开始

请确保已安装 Flash Attention。我们建议手动安装时使用 CUDA 12.4 版本。

pip install -r requirements.txt

克隆 GitHub 仓库:

git clone https://github.com/HiDream-ai/HiDream-I1

然后您可以运行推理脚本以生成图像:

# For full model inference
python ./inference.py --model_type full

# For distilled dev model inference
python ./inference.py --model_type dev

# For distilled fast model inference
python ./inference.py --model_type fast

注意: 推理脚本会自动下载 meta-llama/Meta-Llama-3.1-8B-Instruct 模型文件。如果遇到网络问题,您可以提前下载这些文件并将其放置在适当的缓存目录中,以避免推理过程中下载失败。

Gradio 演示

我们还提供了一个 Gradio 演示,用于交互式图像生成。您可以通过以下命令运行演示:

python gradio_demo.py 

评估指标

DPG-Bench

模型总体全局实体属性关系其他
PixArt-alpha71.1174.9779.3278.6082.5776.96
SDXL74.6583.2782.4380.9186.7680.41
DALL-E 383.5090.9789.6188.3990.5889.83
Flux.1-dev83.7985.8086.7989.9890.0489.90
SD3-Medium84.0887.9091.0188.8380.7088.68
Janus-Pro-7B84.1986.9088.9089.4089.3289.48
CogView4-6B85.1383.8590.3591.1791.1487.29
HiDream-I185.8976.4490.2289.4893.7491.83

GenEval

模型总体单个物体两个物体计数颜色位置颜色属性
SDXL0.550.980.740.390.850.150.23
PixArt-alpha0.480.980.500.440.800.080.07
Flux.1-dev0.660.980.790.730.770.220.45
DALL-E 30.670.960.870.470.830.430.45
CogView4-6B0.730.990.860.660.790.480.58
SD3-Medium0.740.990.940.720.890.330.60
Janus-Pro-7B0.800.990.890.590.900.790.66
HiDream-I10.831.000.980.790.910.600.72

HPSv2.1 基准测试

模型平均值动画概念艺术绘画照片
Stable Diffusion v2.026.3827.0926.0225.6826.73
Midjourney V630.2932.0230.2929.7429.10
SDXL30.6432.8431.3630.8627.48
Dall-E331.4432.3931.0931.1831.09
SD331.5332.6031.8232.0629.62
Midjourney V532.3334.0532.4732.2430.56
CogView4-6B32.3133.2332.6032.8930.52
Flux.1-dev32.4733.8732.2732.6231.11
stable cascade32.9534.5833.1333.2930.78
HiDream-I133.8235.0533.7433.8832.61

许可协议

本仓库中的 Transformer 模型采用 MIT 许可协议。VAE 来自 FLUX.1 [schnell],文本编码器来自 google/t5-v1_1-xxl 和 meta-llama/Meta-Llama-3.1-8B-Instruct。请遵循这些组件指定的许可条款。您拥有使用本模型创建的所有内容的所有权。您可以自由使用生成的内容,但必须遵守本许可协议。您对模型的使用方式负责。不得创建非法内容、有害材料、可能伤害他人的个人信息、虚假信息或针对弱势群体的内容。

致谢

  • VAE 组件来自 FLUX.1 [schnell],采用 Apache 2.0 许可协议。
  • 文本编码器来自 google/t5-v1_1-xxl(采用 Apache 2.0 许可协议)和 meta-llama/Meta-Llama-3.1-8B-Instruct(采用 Llama 3.1 社区许可协议)。

引用

@article{hidreami1technicalreport,
  title={HiDream-I1: A High-Efficient Image Generative Foundation Model with Sparse Diffusion Transformer},
  author={Cai, Qi and Chen, Jingwen and Chen, Yang and Li, Yehao and Long, Fuchen and Pan, Yingwei and Qiu, Zhaofan and Zhang, Yiheng and Gao, Fengbin and Xu, Peihan and others},
  journal={arXiv preprint arXiv:2505.22705},
  year={2025}
}