2024.10.20:我们已上传正确的 tokenizer_config.json。之前的文件缺少 pad_token,导致视觉生成效果不佳。
Janus 是一种新颖的自回归框架,能够统一多模态理解和生成。它通过将视觉编码解耦为独立的路径,同时仍然使用单个统一的变压器架构进行处理,以解决先前方法的局限性。这种解耦不仅减轻了视觉编码器在理解和生成角色之间的冲突,还增强了框架的灵活性。Janus 超越了之前的统一模型,并且其性能与特定任务的模型相匹配或更胜一筹。Janus 的简单性、高灵活性和有效性使其成为下一代统一多模态模型的强有力的候选者。
Janus 是一个统一的理解和生成多模态语言模型,它为多模态理解和生成解耦视觉编码。Janus 是基于 DeepSeek-LLM-1.3b-base 构建的,该模型在一个大约包含 5000B 文本标记的语料库上进行训练。对于多模态理解,它使用 SigLIP-L 作为视觉编码器,支持 384 x 384 图像输入。对于图像生成,Janus 使用来自 这里 的标记器,下采样率为 16。
请参考 GitHub 仓库
此代码仓库遵循 MIT 许可。Janus 模型的使用受 DeepSeek 模型许可 的约束。
@misc{wu2024janus,
title={Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation},
author={Chengyue Wu and Xiaokang Chen and Zhiyu Wu and Yiyang Ma and Xingchao Liu and Zizheng Pan and Wen Liu and Zhenda Xie and Xingkai Yu and Chong Ruan and Ping Luo},
year={2024},
eprint={2410.13848},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2410.13848},
}如有任何疑问,请提出问题或通过 service@deepseek.com 与我们联系。