FLUX.2 [klein] 模型系列是我们迄今为止速度最快的图像模型。FLUX.2 [klein] 通过单一紧凑架构实现了生成与编辑的统一,以低至不到一秒的端到端推理速度,提供业界领先的图像质量 。该模型专为需要实时图像生成且不牺牲质量的应用而构建,可在消费级硬件上运行,最低仅需 13GB 显存。
FLUX.2 [klein] 4B 是一个拥有 40 亿参数的整流流(rectified flow)Transformer,能够根据文本描述生成图像,并支持多参考编辑功能。
该模型完全基于 Apache 2.0 许可开源。我们这款最易获取的模型可在 RTX 3090/4070 等消费级 GPU 上运行。虽身形小巧但功能强大:支持文本生成图像、图像编辑和多参考编辑,其质量远超其模型体量所应有的水平。专为本地开发、边缘部署和生产环境使用而打造。
欲了解更多信息,请阅读我们的博客文章 。
核心特性
我们最快的蒸馏模型,可实现亚秒级图像生成。
最适合交互式工作流、生产部署和对延迟敏感的应用。
单一统一模型支持文本生成图像以及图像到图像的多参考编辑。
可在消费级 GPU 上运行(约 13GB 显存)。
开放权重,可根据 Apache 2.0 许可 用于商业用途。
使用方法
我们在专用的 GitHub 仓库 中提供了 FLUX.2 [klein] 4B 的参考实现以及采样代码。希望基于 FLUX.2 [klein] 4B 进行开发的开发者和创意人士,建议以此为起点。
API 端点
FLUX.2 [klein] 4B 模型可通过 BFL API 获取:
FLUX.2 [klein] 4B 也可在 ComfyUI 和 Diffusers 中使用。
与 Diffusers 🧨 配合使用
要将 FLUX.2 [klein] 4B 与 🧨 Diffusers Python 库配合使用,请先安装或升级 diffusers:
pip install git+https://github.com/huggingface/diffusers.git
然后您可以使用 Flux2KleinPipeline 来运行模型:
import torch
from diffusers import Flux2KleinPipeline
device = "cuda"
dtype = torch.bfloat16
pipe = Flux2KleinPipeline.from_pretrained("black-forest-labs/FLUX.2-klein-4B", torch_dtype=dtype)
pipe.enable_model_cpu_offload() # save some VRAM by offloading the model to CPU
prompt = "A cat holding a sign that says hello world"
image = pipe(
prompt=prompt,
height=1024,
width=1024,
guidance_scale=1.0,
num_inference_steps=4,
generator=torch.Generator(device=device).manual_seed(0)
).images[0]
image.save("flux-klein.png")
局限性
本模型并非旨在也无法提供事实性信息。
尽管模型能够生成文本,但其生成的文本可能不准确或存在失真。
作为一种统计模型,此检查点可能会体现或放大训练数据中存在的偏见。
模型可能无法生成与提示词相符的输出内容。
对提示词的遵循程度在很大程度上受提示风格的影响。
超出范围的使用
本模型及其衍生产品不得用于以下方面:
以任何违反适用法律的方式使用。
以任何形式剥削、伤害未成年人或试图剥削、伤害未成年人;包括但不限于引诱、创建、获取或传播剥削儿童的内容。
生成或传播具有欺骗性、欺诈性、误导性或其他有害的内容。
生成或传播可用于伤害个人的个人身份信息。
骚扰、虐待、威胁、跟踪或欺凌个人或群体。
创建非自愿的私密图像或非法色情内容。
用于完全自动化决策或对个人合法权利产生不利影响或创建、修改具有约束力、可执行义务的高风险应用。
本模型卡片中的任何内容均不应被解释为或视为对模型所依据的许可的限制或修改。
硬件要求
FLUX.2 [klein] 4B模型约占用13GB显存,可在NVIDIA RTX 3090/4070及更高配置的显卡上运行。
负责任的AI开发
Black Forest Labs致力于模型的负责任开发与部署。在发布FLUX.2系列模型之前,我们对模型检查点和托管服务中的多项风险进行了评估和缓解,包括生成非法内容,如儿童性虐待材料(CSAM)和非自愿私密图像(NCII)。我们实施了一系列发布前缓解措施,以帮助防止第三方滥用,并辅以额外的发布后缓解措施,以应对残余风险:
预训练阶段缓解。我们对预训练数据进行了多类“不适合工作环境”(NSFW)内容和已知儿童性虐待材料(CSAM)的过滤,以防止用户通过文本提示或上传的图像生成非法内容。我们与致力于防止网络虐待的独立非营利组织https://www.iwf.org.uk/合作,对训练数据中的已知CSAM进行过滤。
训练后阶段缓解。随后,我们进行了多轮有针对性的微调,以进一步缓解潜在的滥用风险,包括针对文本到图像(T2I)和图像到图像(I2I)的攻击。通过抑制模型中的某些行为和概念,这些技术有助于防止用户通过文本提示生成合成CSAM或NCII,或将上传的图像转换为合成CSAM或NCII。
持续评估。在整个过程中,我们对模型检查点进行了多次内部和外部第三方评估,以发现更多需要缓解的问题。外部第三方评估侧重于通过对抗性测试来诱发CSAM和NCII生成,测试方式包括(i)纯文本提示,(ii)单张上传参考图像配合文本提示,以及(iii)多张上传参考图像配合文本提示。基于这些反馈,我们进行了进一步的安全微调,以生成我们的开源FLUX.2 [klein]模型。
发布决策。在安全微调之后和发布之前,我们对拟发布的检查点进行了最终的第三方评估,重点关注T2I和I2I生成的合成CSAM和NCII,并与其他开源T2I和I2I模型进行了比较。最终的FLUX.2 [klein]检查点在复杂生成和编辑任务中表现出对违规输入的高抵抗性,并且在这些风险类别上比领先的开源模型表现出更高的抵抗性。基于这些发现,我们批准以Apache 2.0许可发布开源FLUX.2 [klein] 4B模型,并以非商业许可发布FLUX.2 [klein] 9B模型,以支持第三方研究与开发。
推理过滤。FLUX.2 [klein]模型的代码库包含对输入和输出中NSFW内容及受保护内容的过滤机制。根据FLUX非商业许可条款,使用FLUX.2 [klein] 9B模型时必须使用过滤器或进行人工审核,我们也鼓励部署者在使用FLUX.2 [klein] 4B模型时实施这些缓解措施。在我们自己的托管服务中实施这些功能时,我们可能会应用多重过滤器来拦截文本提示、上传的图像和输出的图像。我们同时利用内部和第三方过滤器(例如由https://thehive.ai/和https://www.microsoft.com/提供的过滤器)来缓解有害输出,如CSAM和NCII输出。
内容溯源。内容溯源功能可以帮助用户和平台更好地在线识别、标记和解读AI生成的内容。FLUX.2 [klein]的推理代码实现了像素层水印的示例。此外,本代码库还包含指向https://c2pa.org/元数据标准的链接。FLUX.2 [klein]的API会对下载的输出内容应用加密签名的C2PA元数据,以表明图像是使用我们的模型生成的。
政策。我们模型的可接受使用方式以及对我们API的访问均受适用文档中规定的政策约束,包括FLUX非商业许可(适用于非商业开源用户);开发者服务条款、自托管商业许可条款和使用政策(适用于商业开源模型用户);以及开发者服务条款、FLUX API服务条款和使用政策(适用于API用户)。这些政策禁止生成非法内容或将生成的内容用于非法、诽谤或滥用目的。
安全。Black Forest Labs高度重视模型安全。我们提供专用电子邮件地址(safety@blackforestlabs.ai )以征求社区反馈。我们与https://www.iwf.org.uk/和https://www.missingkids.org/等组织保持报告关系,并欢迎与当局、开发者和研究人员持续合作,分享有关新兴风险的情报并制定有效的缓解措施。
许可协议
本模型根据https://www.apache.org/licenses/LICENSE-2.0许可协议授权。
商标与知识产权
本项目可能包含项目、产品或服务的商标或徽标。在本项目的修改版本中使用Black Forest Labs和FLUX的商标或徽标不得引起混淆,或暗示获得赞助或认可。对任何第三方商标、知识产权或徽标的使用均受该第三方政策的约束。