网大论坛

 找回密码
 立即注册
查看: 1786|回复: 0

南方科大联合鹏城Lab提出 CorrCLIP

[复制链接]

初出江湖

Rank: 2

55

积分

0

贡献

0

奖励
发表于 2024-12-1 19:08:07 | 显示全部楼层 |阅读模式

开放式词汇语义分割旨在为每个像素分配语义标签,而不依赖于预定义类别的集合。CLIP展示了卓越的零样本分类能力,但在像素级分割任务上遇到困难,因为捕获到的跨patch相关性并不对应于特定的视觉概念。尽管之前基于CLIP的工作通过Self-Attention机制提高了跨patch相关性,但仍面临固有的限制,即图像 Patch 往往与离群 Patch 高度相似。

在本文中,作者引入了CorrCLIP,这是一种无需训练的方法,用于开放式词汇语义分割,通过基础模型重建显著的跨patch一致性相关性。具体而言,它利用SAM来定义 Patch 交互的范围,确保 Patch 仅与语义相似的 Patch 进行交互。

此外,CorrCLIP通过自监督模型理解图像的语义布局,以确定 Patch 之间的具体相似度值,从而解决了上述受限 Patch 交互机制导致的相似度不规则问题。最后,CorrCLIP重用了SAM生成的区域 Mask 来更新分割图。

作为一种无需训练的方法,CorrCLIP在八个具有挑战性的基准测试中,在mIoU上取得了显著改进,将性能从44.4%提升至51.0%。


您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

论坛的微信公众号(二维码如下),关注获取更多科教信息

Archiver|手机版|网大论坛 ( (鄂ICP备2021013060号-2) )

GMT+8, 2024-12-27 08:01 , Processed in 0.028905 second(s), 20 queries , Gzip On.

鄂公网安备 42018502005923号

Powered by Discuz! X3.4

Copyright © 2001-2022, Tencent Cloud.