UniCom:
基于压缩连续语义表示的统一多模态建模

Yaqi Zhao^1,3*, Wang Lin^2,3*, Zijian Zhang³, Miles Yang³, Jingyuan Chen^2†, Wentao Zhang^1†, Zhao Zhong³, Liefeng Bo³

¹ 北京大学
² 浙江大学
³ 腾讯混元

摘要

当前的统一多模态模型通常依赖离散视觉分词器来弥合模态差距。然而，离散化过程不可避免地会丢弃细粒度语义信息，导致视觉理解任务性能欠佳。相反，直接对连续语义表示进行建模（例如CLIP、SigLIP）在高维生成建模中面临重大挑战，导致收敛缓慢和训练不稳定。为解决这一困境，我们提出了UniCom，一种通过压缩连续表示来协调多模态理解与生成的统一框架。我们通过实验证明，在重建和生成任务中，降低通道维度比空间下采样更为有效。据此，我们设计了一种基于注意力的语义压缩器，将密集特征提炼为紧凑的统一表示。此外，我们验证了Transfusion架构在收敛性和一致性方面优于基于查询的设计。实验表明，UniCom在统一模型中实现了最先进的生成性能。值得注意的是，通过保留丰富的语义先验，它在图像编辑中展现出卓越的可控性，并且即使不依赖VAE也能保持图像一致性。

🌟 模型

本仓库包含以下 UniCom 组件：

unicom_hf_model/：用于统一多模态生成与编辑的主要 UniCom checkpoint。
unicom_decoder_transformer.pt：用于将 UniCom latent 表示解码为图像的解码器 Transformer checkpoint。
flux-vae/：推理时所需的解码器端 Flux VAE。
siglip2-so400m-patch16-naflex/：解码器进行重建和基于 SigLIP2 条件调节所需的 SigLIP2 视觉编码器。

🚀 快速开始

有关设置和示例用法，请参见项目资源：

GitHub 仓库：https://github.com/Tencent-Hunyuan/UniCom
项目页面：https://miazhao7708.github.io/UniComPage/
论文：https://arxiv.org/abs/2603.10702

✏️ 引用

如果您发现 UniCom 对您的研究有所帮助，请引用：

@misc{zhao2026unicomunifiedmultimodalmodeling,
  title={UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations},
  author={Yaqi Zhao and Wang Lin and Zijian Zhang and Miles Yang and Jingyuan Chen and Wentao Zhang and Zhao Zhong and Liefeng Bo},
  year={2026},
  eprint={2603.10702},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2603.10702},
}

许可协议

UniCom 根据 UniCom 的许可条款进行许可。有关更多详细信息，请参见 ./LICENSE.txt。

摘要

🌟 模型

本仓库包含以下 UniCom 组件：

unicom_hf_model/：用于统一多模态生成与编辑的主要 UniCom checkpoint。

unicom_decoder_transformer.pt：用于将 UniCom latent 表示解码为图像的解码器 Transformer checkpoint。

flux-vae/：推理时所需的解码器端 Flux VAE。

siglip2-so400m-patch16-naflex/：解码器进行重建和基于 SigLIP2 条件调节所需的 SigLIP2 视觉编码器。

✏️ 引用

如果您发现 UniCom 对您的研究有所帮助，请引用：

@misc{zhao2026unicomunifiedmultimodalmodeling,
  title={UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations},
  author={Yaqi Zhao and Wang Lin and Zijian Zhang and Miles Yang and Jingyuan Chen and Wentao Zhang and Zhao Zhong and Liefeng Bo},
  year={2026},
  eprint={2603.10702},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2603.10702},
}

UniCom:基于压缩连续语义表示的统一多模态建模

摘要

🌟 模型

🚀 快速开始

✏️ 引用

许可协议

UniCom:基于压缩连续语义表示的统一多模态建模

摘要

🌟 模型

🚀 快速开始

✏️ 引用

许可协议

UniCom:
基于压缩连续语义表示的统一多模态建模

UniCom:
基于压缩连续语义表示的统一多模态建模