tencent_hunyuan/Hunyuan3D-Omni
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

Hunyuan3D-Omni: 可控3D资产生成的统一框架

该模型在论文 Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets 中进行了介绍。

摘要

近年来,原生3D生成模型的进展加速了游戏、影视和设计领域的资产创建。然而,大多数方法仍主要依赖图像或文本条件,缺乏细粒度的跨模态控制,这限制了其可控性和实际应用。为解决这一问题,我们提出了Hunyuan3D-Omni,这是一个基于Hunyuan3D 2.1构建的细粒度可控3D资产生成统一框架。除图像外,Hunyuan3D-Omni还接受点云、体素、边界框和骨骼姿态先验作为条件信号,实现对几何形状、拓扑结构和姿态的精确控制。我们的模型并非为每种模态设置单独的处理头,而是在单一跨模态架构中统一所有信号。我们采用渐进式、难度感知的采样策略进行训练,每个样本选择一种控制模态,并偏向于较难的信号(如骨骼姿态),同时降低较易信号(如点云)的权重,以促进稳健的多模态融合并优雅处理缺失输入。实验表明,这些额外控制提升了生成精度,实现了几何感知变换,并增强了生产工作流的稳健性。


Hunyuan3D-Omni

Hunyuan3D-Omni 是一个用于可控生成 3D 资产的统一框架,它继承了 Hunyuan3D 2.1 的结构。与之不同的是,Hunyuan3D-Omni 构建了一个统一的控制编码器,以引入额外的控制信号,包括点云、体素、骨架和边界框。

多模态条件控制

  • 边界框控制:生成受 3D 边界框约束的 3D 模型
  • 姿态控制:创建具有特定骨骼姿态的 3D 人体模型
  • 点云控制:在输入点云的引导下生成 3D 模型
  • 体素控制:从体素表示创建 3D 模型

🎁 模型库

生成过程需要 10 GB 显存。

模型描述日期大小Huggingface
Hunyuan3D-Omni具有多模态控制的图像到形状模型2025-09-253.3B下载

安装

环境要求

我们使用 Python 3.10 对模型进行了测试。

pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
pip install -r requirements.txt

使用方法

推理

多模态推理

python inference.py --control_type <control_type> [--use_ema] [--flashvdm]

control_type 参数有四个可用选项:

point:使用点控制类型进行推理。
voxel:使用体素控制类型进行推理。
bbox:使用边界框控制类型进行推理。
pose:使用姿态控制类型进行推理。

--use_ema 标志启用指数移动平均(EMA)模型,以实现更稳定的推理。

--flashvdm 标志启用 FlashVDM 优化,以提高推理速度。

请根据您的需求选择合适的 control_type。例如,如果您想使用 point 控制类型,可以运行:

python inference.py --control_type point 
python inference.py --control_type point --use_ema
python inference.py --control_type point --flashvdm

致谢

我们要感谢以下项目的贡献者:TripoSG、Trellis、DINOv2、Stable Diffusion、FLUX、diffusers、HuggingFace、CraftsMan3D、Michelangelo、Hunyuan-DiT、HunyuanVideo、HunyuanWorld-1.0 以及 HunyuanWorld-Voyager 仓库,感谢他们开放的研究与探索。

引用

如果您在研究中使用了本代码,请引用:

@misc{hunyuan3d2025hunyuan3domni,
      title={Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets}, 
      author={Tencent Hunyuan3D Team},
      year={2025},
      eprint={2509.21245},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2509.21245}, 
}
@misc{hunyuan3d2025hunyuan3d,
    title={Hunyuan3D 2.1: From Images to High-Fidelity 3D Assets with Production-Ready PBR Material},
    author={Tencent Hunyuan3D Team},
    year={2025},
    eprint={2506.15442},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}

@misc{hunyuan3d22025tencent,
    title={Hunyuan3D 2.0: Scaling Diffusion Models for High Resolution Textured 3D Assets Generation},
    author={Tencent Hunyuan3D Team},
    year={2025},
    eprint={2501.12202},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}

@misc{yang2024hunyuan3d,
    title={Hunyuan3D 1.0: A Unified Framework for Text-to-3D and Image-to-3D Generation},
    author={Tencent Hunyuan3D Team},
    year={2024},
    eprint={2411.02293},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}

星标历史

星标历史图表