URSA-1.7B-IBQ512 模型卡片

模型详情

开发机构： BAAI
模型类型： 文本到图像生成模型
模型大小： 1.7B
模型精度： torch.float16（FP16）
模型分辨率： 512x512
模型论文： Uniform Discrete Diffusion with Metric Path for Video Generation
模型系列： BAAI-Vision-URSA
模型分词器： Emu3.5-Vision-Tokenizer
模型描述： 这是一个可基于文本提示生成和修改图像的模型。

示例

使用 🤗's Diffusers 库可简单高效地运行 URSA。

pip install diffusers transformers accelerate imageio[ffmpeg]
pip install git+ssh://git@github.com/baaivision/URSA.git

运行流水线：

import torch
from diffnext.pipelines import URSAPipeline

model_id, height, width = "BAAI/URSA-1.7B-IBQ512", 512, 512
model_args = {"torch_dtype": torch.float16, "trust_remote_code": True}
pipe = URSAPipeline.from_pretrained(model_id, **model_args)
pipe = pipe.to(torch.device("cuda"))

prompt = "The bear, calm and still, gazes upward as if lost in contemplation of the cosmos."
negative_prompt = "worst quality, low quality, inconsistent motion, static, still, blurry, jittery, distorted, ugly"

image = pipe(**locals()).frames[0]
image.save("ursa.jpg")

用途

直接用途

本模型仅供研究使用。可能的研究领域和任务包括：

生成模型研究。
在教育或创意工具中的应用。
艺术作品生成以及在设计和其他艺术创作过程中的使用。
探究和理解生成模型的局限性与偏见。
安全部署可能生成有害内容的模型。

以下为排除用途。

超出范围的用途

本模型并非为生成关于人物或事件的事实性或真实性内容而训练，因此使用本模型生成此类内容超出了本模型的能力范围。

误用和恶意使用

使用本模型生成对个人残忍的内容属于对本模型的误用。这包括但不限于：

错误信息和虚假信息。
呈现令人震惊的暴力和血腥内容。
在未经个人同意的情况下冒充他人。
未经可能观看者同意的性内容。
违反版权或许可材料使用条款分享该等材料。
故意推广或传播歧视性内容或有害刻板印象。
违反版权或许可材料使用条款分享对该等材料的修改内容。
生成对人或其环境、文化、宗教等具有贬低性、非人化或其他有害性质的描述。

局限性与偏见

局限性

模型的自编码部分存在信息损失。
模型无法渲染复杂的清晰文本。
模型无法达到完美的照片级真实感。
手指等部位通常可能无法正确生成。
模型是在网络数据集LAION-5B和COYO-700M的子集上训练的，其中包含成人、暴力和性内容。

偏见

尽管图像生成模型的能力令人印象深刻，但它们也可能强化或加剧社会偏见。

URSA-1.7B-IBQ512 模型卡片

模型详情

开发机构： BAAI
模型类型： 文本到图像生成模型
模型大小： 1.7B
模型精度： torch.float16（FP16）
模型分辨率： 512x512
模型论文： Uniform Discrete Diffusion with Metric Path for Video Generation
模型系列： BAAI-Vision-URSA
模型分词器： Emu3.5-Vision-Tokenizer
模型描述： 这是一个可基于文本提示生成和修改图像的模型。

示例

使用 🤗's Diffusers 库可简单高效地运行 URSA。

pip install diffusers transformers accelerate imageio[ffmpeg]
pip install git+ssh://git@github.com/baaivision/URSA.git

运行流水线：

import torch
from diffnext.pipelines import URSAPipeline

model_id, height, width = "BAAI/URSA-1.7B-IBQ512", 512, 512
model_args = {"torch_dtype": torch.float16, "trust_remote_code": True}
pipe = URSAPipeline.from_pretrained(model_id, **model_args)
pipe = pipe.to(torch.device("cuda"))

prompt = "The bear, calm and still, gazes upward as if lost in contemplation of the cosmos."
negative_prompt = "worst quality, low quality, inconsistent motion, static, still, blurry, jittery, distorted, ugly"

image = pipe(**locals()).frames[0]
image.save("ursa.jpg")

用途

直接用途

本模型仅供研究使用。可能的研究领域和任务包括：

生成模型研究。
在教育或创意工具中的应用。
艺术作品生成以及在设计和其他艺术创作过程中的使用。
探究和理解生成模型的局限性与偏见。
安全部署可能生成有害内容的模型。

以下为排除用途。

超出范围的用途

本模型并非为生成关于人物或事件的事实性或真实性内容而训练，因此使用本模型生成此类内容超出了本模型的能力范围。

误用和恶意使用

使用本模型生成对个人残忍的内容属于对本模型的误用。这包括但不限于：

错误信息和虚假信息。
呈现令人震惊的暴力和血腥内容。
在未经个人同意的情况下冒充他人。
未经可能观看者同意的性内容。
违反版权或许可材料使用条款分享该等材料。
故意推广或传播歧视性内容或有害刻板印象。
违反版权或许可材料使用条款分享对该等材料的修改内容。
生成对人或其环境、文化、宗教等具有贬低性、非人化或其他有害性质的描述。

局限性与偏见

局限性

模型的自编码部分存在信息损失。
模型无法渲染复杂的清晰文本。
模型无法达到完美的照片级真实感。
手指等部位通常可能无法正确生成。
模型是在网络数据集LAION-5B和COYO-700M的子集上训练的，其中包含成人、暴力和性内容。

偏见

尽管图像生成模型的能力令人印象深刻，但它们也可能强化或加剧社会偏见。