Janus-1.3B:Janus-1.3B：新一代统一多模态模型，独特的自回归框架实现视觉编码解耦，提升多模态理解与生成的灵活性，性能超越传统模型。基于DeepSeek-LLM-1.3b-base，兼容多种任务，是未来多模态模型的发展方向。

0. 更新

2024.10.20：我们已上传正确的 tokenizer_config.json。之前的文件缺少 pad_token，导致视觉生成效果不佳。

1. 简介

Janus 是一种新颖的自回归框架，能够统一多模态理解和生成。它通过将视觉编码解耦为独立的路径，同时仍然使用单个统一的变压器架构进行处理，以解决先前方法的局限性。这种解耦不仅减轻了视觉编码器在理解和生成角色之间的冲突，还增强了框架的灵活性。Janus 超越了之前的统一模型，并且其性能与特定任务的模型相匹配或更胜一筹。Janus 的简单性、高灵活性和有效性使其成为下一代统一多模态模型的强有力的候选者。

Janus：解耦视觉编码以实现统一的多模态理解和生成

GitHub 仓库

2. 模型摘要

Janus 是一个统一的理解和生成多模态语言模型，它为多模态理解和生成解耦视觉编码。Janus 是基于 DeepSeek-LLM-1.3b-base 构建的，该模型在一个大约包含 5000B 文本标记的语料库上进行训练。对于多模态理解，它使用 SigLIP-L 作为视觉编码器，支持 384 x 384 图像输入。对于图像生成，Janus 使用来自这里的标记器，下采样率为 16。

3. 快速入门

请参考 GitHub 仓库

4. 许可

此代码仓库遵循 MIT 许可。Janus 模型的使用受 DeepSeek 模型许可的约束。

5. 引用

@misc{wu2024janus,
      title={Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation}, 
      author={Chengyue Wu and Xiaokang Chen and Zhiyu Wu and Yiyang Ma and Xingchao Liu and Zizheng Pan and Wen Liu and Zhenda Xie and Xingkai Yu and Chong Ruan and Ping Luo},
      year={2024},
      eprint={2410.13848},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2410.13848}, 
}

6. 联系方式

如有任何疑问，请提出问题或通过 service@deepseek.com 与我们联系。