Shap-E 引入了一种扩散过程,能够根据文本提示生成 3D 图像。它由 OpenAI 的 Heewoo Jun 和 Alex Nichol 在论文《Shap-E: Generating Conditional 3D Implicit Functions》(https://arxiv.org/abs/2305.02463)中提出。
Shap-E 的原始代码库可在此处找到:https://github.com/openai/shap-e。
本模型卡片并非由 Shap-E 的作者编写。他们在此处提供了单独的模型卡片。
Shap-E 论文摘要如下:
我们提出了 Shap-E,一种用于 3D 资产的条件生成模型。与近期专注于生成单一输出表示的 3D 生成模型不同,Shap-E 直接生成隐式函数的参数,这些参数既可以渲染为带纹理的网格,也可以渲染为神经辐射场。我们分两个阶段训练 Shap-E:首先,训练一个编码器,将 3D 资产确定性地映射到隐式函数的参数中;其次,在编码器的输出上训练一个条件扩散模型。当在大型 3D 与文本配对数据集上训练时,我们得到的模型能够在几秒钟内生成复杂多样的 3D 资产。与 Point-E(一种基于点云的显式生成模型)相比,尽管 Shap-E 建模的是更高维度、多表示的输出空间,但它收敛速度更快,并且样本质量达到了相当或更好的水平。我们在此链接发布了模型权重、推理代码和样本。
作者发布了以下检查点:
首先确保您已安装所有依赖项:
pip install transformers accelerate -q
pip install git+https://github.com/huggingface/diffusers@@shap-ee依赖项安装完成后,请使用以下代码:
import torch
from diffusers import ShapEPipeline
from diffusers.utils import export_to_gif
ckpt_id = "openai/shap-e"
pipe = ShapEPipeline.from_pretrained(repo).to("cuda")
guidance_scale = 15.0
prompt = "a shark"
images = pipe(
prompt,
guidance_scale=guidance_scale,
num_inference_steps=64,
size=256,
).images
gif_path = export_to_gif(images, "shark_3d.gif")
|
|
|
| 一只鸟 | 一条鲨鱼 | 一碗蔬菜 |
请参考原始论文。
请参考原始模型卡片。
@misc{jun2023shape,
title={Shap-E: Generating Conditional 3D Implicit Functions},
author={Heewoo Jun and Alex Nichol},
year={2023},
eprint={2305.02463},
archivePrefix={arXiv},
primaryClass={cs.CV}
}