当前的统一多模态模型通常依赖离散视觉分词器来弥合模态差距。然而,离散化过程不可避免地会丢弃细粒度语义信息,导致视觉理解任务性能欠佳。相反,直接对连续语义表示进行建模(例如CLIP、SigLIP)在高维生成建模中面临重大挑战,导致收敛缓慢和训练不稳定。为解决这一困境,我们提出了UniCom,一种通过压缩连续表示来协调多模态理解与生成的统一框架。我们通过实验证明,在重建和生成任务中,降低通道维度比空间下采样更为有效。据此,我们设计了一种基于注意力的语义压缩器,将密集特征提炼为紧凑的统一表示。此外,我们验证了Transfusion架构在收敛性和一致性方面优于基于查询的设计。实验表明,UniCom在统一模型中实现了最先进的生成性能。值得注意的是,通过保留丰富的语义先验,它在图像编辑中展现出卓越的可控性,并且即使不依赖VAE也能保持图像一致性。
本仓库包含以下 UniCom 组件:
unicom_hf_model/:用于统一多模态生成与编辑的主要 UniCom checkpoint。unicom_decoder_transformer.pt:用于将 UniCom latent 表示解码为图像的解码器 Transformer checkpoint。flux-vae/:推理时所需的解码器端 Flux VAE。siglip2-so400m-patch16-naflex/:解码器进行重建和基于 SigLIP2 条件调节所需的 SigLIP2 视觉编码器。有关设置和示例用法,请参见项目资源:
如果您发现 UniCom 对您的研究有所帮助,请引用:
@misc{zhao2026unicomunifiedmultimodalmodeling,
title={UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations},
author={Yaqi Zhao and Wang Lin and Zijian Zhang and Miles Yang and Jingyuan Chen and Wentao Zhang and Zhao Zhong and Liefeng Bo},
year={2026},
eprint={2603.10702},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2603.10702},
}UniCom 根据 UniCom 的许可条款进行许可。有关更多详细信息,请参见 ./LICENSE.txt。