tencent_hunyuan/Unicom-Unified-Multimodal-Modeling-via-Compressed-Continuous-Semantic-Representations
模型介绍文件和版本Pull Requests讨论分析

UniCom:
基于压缩连续语义表示的统一多模态建模

arXiv Website Code
Yaqi Zhao1,3*, Wang Lin2,3*, Zijian Zhang3, Miles Yang3, Jingyuan Chen2†, Wentao Zhang1†, Zhao Zhong3, Liefeng Bo3
1 北京大学
2 浙江大学
3 腾讯混元

摘要

当前的统一多模态模型通常依赖离散视觉分词器来弥合模态差距。然而,离散化过程不可避免地会丢弃细粒度语义信息,导致视觉理解任务性能欠佳。相反,直接对连续语义表示进行建模(例如CLIP、SigLIP)在高维生成建模中面临重大挑战,导致收敛缓慢和训练不稳定。为解决这一困境,我们提出了UniCom,一种通过压缩连续表示来协调多模态理解与生成的统一框架。我们通过实验证明,在重建和生成任务中,降低通道维度比空间下采样更为有效。据此,我们设计了一种基于注意力的语义压缩器,将密集特征提炼为紧凑的统一表示。此外,我们验证了Transfusion架构在收敛性和一致性方面优于基于查询的设计。实验表明,UniCom在统一模型中实现了最先进的生成性能。值得注意的是,通过保留丰富的语义先验,它在图像编辑中展现出卓越的可控性,并且即使不依赖VAE也能保持图像一致性。

🌟 模型

本仓库包含以下 UniCom 组件:

  • unicom_hf_model/:用于统一多模态生成与编辑的主要 UniCom checkpoint。
  • unicom_decoder_transformer.pt:用于将 UniCom latent 表示解码为图像的解码器 Transformer checkpoint。
  • flux-vae/:推理时所需的解码器端 Flux VAE。
  • siglip2-so400m-patch16-naflex/:解码器进行重建和基于 SigLIP2 条件调节所需的 SigLIP2 视觉编码器。

🚀 快速开始

有关设置和示例用法,请参见项目资源:

  • GitHub 仓库:https://github.com/Tencent-Hunyuan/UniCom
  • 项目页面:https://miazhao7708.github.io/UniComPage/
  • 论文:https://arxiv.org/abs/2603.10702

✏️ 引用

如果您发现 UniCom 对您的研究有所帮助,请引用:

@misc{zhao2026unicomunifiedmultimodalmodeling,
  title={UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations},
  author={Yaqi Zhao and Wang Lin and Zijian Zhang and Miles Yang and Jingyuan Chen and Wentao Zhang and Zhao Zhong and Liefeng Bo},
  year={2026},
  eprint={2603.10702},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2603.10702},
}

许可协议

UniCom 根据 UniCom 的许可条款进行许可。有关更多详细信息,请参见 ./LICENSE.txt。

下载使用量0