Shap-E

Shap-E 引入了一种扩散过程，能够根据文本提示生成 3D 图像。它由 OpenAI 的 Heewoo Jun 和 Alex Nichol 在论文《Shap-E: Generating Conditional 3D Implicit Functions》（https://arxiv.org/abs/2305.02463）中提出。

Shap-E 的原始代码库可在此处找到：https://github.com/openai/shap-e。

本模型卡片并非由 Shap-E 的作者编写。他们在此处提供了单独的模型卡片。

简介

Shap-E 论文摘要如下：

我们提出了 Shap-E，一种用于 3D 资产的条件生成模型。与近期专注于生成单一输出表示的 3D 生成模型不同，Shap-E 直接生成隐式函数的参数，这些参数既可以渲染为带纹理的网格，也可以渲染为神经辐射场。我们分两个阶段训练 Shap-E：首先，训练一个编码器，将 3D 资产确定性地映射到隐式函数的参数中；其次，在编码器的输出上训练一个条件扩散模型。当在大型 3D 与文本配对数据集上训练时，我们得到的模型能够在几秒钟内生成复杂多样的 3D 资产。与 Point-E（一种基于点云的显式生成模型）相比，尽管 Shap-E 建模的是更高维度、多表示的输出空间，但它收敛速度更快，并且样本质量达到了相当或更好的水平。我们在此链接发布了模型权重、推理代码和样本。

已发布的检查点

作者发布了以下检查点：

openai/shap-e：根据文本输入提示生成 3D 图像
openai/shap-e-img2img：从合成 2D 图像中采样 3D 图像

在 🧨 diffusers 中的使用示例

首先确保您已安装所有依赖项：

pip install transformers accelerate -q
pip install git+https://github.com/huggingface/diffusers@@shap-ee

依赖项安装完成后，请使用以下代码：

import torch
from diffusers import ShapEPipeline
from diffusers.utils import export_to_gif


ckpt_id = "openai/shap-e"
pipe = ShapEPipeline.from_pretrained(repo).to("cuda")


guidance_scale = 15.0
prompt = "a shark"
images = pipe(
    prompt,
    guidance_scale=guidance_scale,
    num_inference_steps=64,
    size=256,
).images

gif_path = export_to_gif(images, "shark_3d.gif")

结果


一只鸟	一条鲨鱼	一碗蔬菜

训练详情

请参考原始论文。

已知局限性和潜在偏差

请参考原始模型卡片。

引用

@misc{jun2023shape,
      title={Shap-E: Generating Conditional 3D Implicit Functions}, 
      author={Heewoo Jun and Alex Nichol},
      year={2023},
      eprint={2305.02463},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

shap-e:通过扩散过程从文本提示生成3D图像，可渲染为纹理网格和神经辐射场，能快速生成复杂多样的3D资产，收敛速度快且样本质量高。【此简介由AI生成】 - AtomGit AI社区