Kolors 是由快手 Kolors 团队开发的基于 latent diffusion 的大规模文本到图像生成模型。通过在数十亿文本-图像对上进行训练,Kolors 在视觉质量、复杂语义准确性以及中英文文字渲染方面,相较于开源模型和专有模型均展现出显著优势。此外,Kolors 支持中英文输入,在理解和生成中国特色内容方面表现出色。更多详情,请参考本 技术报告。
apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py installhuggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors或
git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolorspython3 scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着“可图”"
# The image will be saved to "scripts/outputs/sample_test.jpg"请参考 https://huggingface.co/Kwai-Kolors/Kolors-diffusers。
Kolors 完全开源,供学术研究使用。如需商业用途,请填写此问卷并发送至 kwai-kolors@kuaishou.com 进行注册。
我们开源 Kolors,旨在与开源社区合作,推动大型文本到图像模型的发展。本项目的代码基于 Apache-2.0 许可证开源。我们真诚地敦促所有开发者和用户严格遵守开源许可证,避免将开源模型、代码及其衍生品用于任何可能危害国家和社会的目的,或用于任何未经安全评估和注册的服务。请注意,尽管我们在训练过程中已尽最大努力确保数据的合规性、准确性和安全性,但由于生成内容的多样性和可组合性以及影响模型的概率随机性,我们无法保证输出内容的准确性和安全性,且模型容易受到误导。对于因使用本开源模型和代码而导致的任何数据安全问题、舆论风险,或因模型被误导、滥用、误用或不当利用而产生的任何风险和责任,本项目不承担任何法律责任。
如果您觉得我们的工作有帮助,请引用它!
@article{kolors,
title={Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis},
author={Kolors Team},
journal={arXiv preprint},
year={2024}
}如果您想给我们的研发团队和产品团队留言,欢迎加入我们的 微信群。您也可以通过邮箱(kwai-kolors@kuaishou.com)与我们联系。