owlvit-base-patch32:可用于通过文本查询图像中的目标,实现零样本目标检测。项目采用 CLIP 作为多模态骨干,结合 ViT 架构,支持单或多文本查询,能定位未训练标签的对象,适用于研究和跨学科探索。【此简介由AI生成】 - AtomGit AI社区