开放式词汇语义分割旨在为每个像素分配语义标签,而不依赖于预定义类别的集合。CLIP展示了卓越的零样本分类能力,但在像素级分割任务上遇到困难,因为捕获到的跨patch相关性并不对应于特定的视觉概念。尽管之前基于CLIP的工作通过Self-Attention机制提高了跨patch相关性,但仍面临固有的限制,即图像 Patch 往往与离群 Patch 高度相似。 在本文中,作者引入了CorrCLIP,这是一种无需训练的方法,用于开放式词汇语义分割,通过基础模型重建显著的跨patch一致性相关性。具体而言,它利用SAM来定义 Patch 交互的范围,确保 Patch 仅与语义相似的 Patch 进行交互。 此外,CorrCLIP通过自监督模型理解图像的语义布局,以确定 Patch 之间的具体相似度值,从而解决了上述受限 Patch 交互机制导致的相似度不规则问题。最后,CorrCLIP重用了SAM生成的区域 Mask 来更新分割图。 作为一种无需训练的方法,CorrCLIP在八个具有挑战性的基准测试中,在mIoU上取得了显著改进,将性能从44.4%提升至51.0%。
|