ICLR 2022|通过提炼特征对应关系进行无监督语义分割

与以前使用单一的端到端框架来实现这一点的工作不同,这篇文章建议将特征学习从集群紧化中分离出来。当前的无监督特征学习框架已经产生了密集的特征,其相关性是语义一致的。这一观察结果促使研究者们设计 STEGO(基于能量的图优化的自监督变换器),这是一个新的框架,将无监督特征提取为高质量的离散语义标签。STEGO 的核心是一种新的对比损失函数,它鼓励特征形成紧凑的集群,同时保持它们在整个语料库中的关系。STEGO 在 CocoStuff(+14mIoU) 和城市景观 (+9mIoU) 语义分割挑战上,都比之前的技术水平有了显著的改进。

来源:ICLR 2022
作者:Mark Hamilton et. al
论文链接:https://arxiv.org/abs/2203.08414
代码链接:https://github.com/mhamilton723/STEGO
内容整理:张育荣

STEGO 利用一种新的对比损失,将预先训练过的无监督视觉特征提取为语义簇。STEGO 大大改进了现有技术,是缩小与监督分割系统的差距的相当大的一步。贡献:

  1. 结果表明,无监督深度网络特征与真实语义标签基本一致。
  2. 介绍了STEGO,一种新的 transformer-based 无监督语义分割架构。
  3. 证明了STEGO在协同(+14mIoU)和城市景观(+9mIoU)分割挑战上都取得了最先进的性能。
  4. 通过在协同材料数据集上的消融研究证明了STEGO的设计。

实验方法

概述

图片
图 1 Method

上图为 STEGO 的整体框架。STEGO 是“基于能量的图优化的自我监督 Transformer”的缩写,它建立在 DINO 算法之上,该算法通过 ImageNet 数据库中的 1400 万张图像理解世界。STEGO 通过一个学习过程来完善 DINO 骨干,该过程模仿我们自己将世界的各个部分拼接在一起的方式。

例如,您可能会考虑两张狗在公园里散步的图像。尽管它们是不同的狗,拥有不同的主人,在不同的公园,STEGO 可以(没有人类)分辨出每个场景的对象是如何相互关联的。作者甚至探究了 STEGO 的思维,看图像中每个棕色毛茸茸的小东西有什么相似之处,以及与草和人等其他共享对象的相似之处。通过跨图像连接对象,STEGO 构建了一致的单词视图。

算法流程

ICLR 2022|通过提炼特征对应关系进行无监督语义分割
  1. 为了给学习得到的特征图进行语义分割,可以采用如下两种方式:一为聚类;二是以线性网络和部分监督信息,凭借交叉熵损失即可训练。
  2. 通过连接条件随机场对语义分割进行微调。

对应关系提取

当集群化时,会产生高质量的语义分割。特别是,我们试图学习一种低维嵌入,即“提取”特征对应。为了实现这一目标,我们从 CRF 中获得了灵感,它使用了一个无向图形模型来细化噪声或者通过将它们与原始图像中的边缘和与颜色相关的区域对齐来进行低分辨率的类别预测。

聚类训练

ICLR 2022|通过提炼特征对应关系进行无监督语义分割

实验结果

图片
图 2 Qualitative Result

上图为 STEGO 在 CityScapes 上的表现,作为一种无监督算法来说,已经能分割出较好的结果。但尽管进行了改进,STEGO 仍然面临着一定的挑战。一是标签可以是任意的。例如,COCO-Stuff 数据集的标签区分香蕉和鸡翅等“食物”,粗粒和意大利面等“食物”。STEGO 并没有看到太大的区别。在其他情况下,STEGO 被奇怪的图像弄糊涂了——比如一个香蕉坐在电话接收器上——接收器被标记为“食品”,而不是“原材料”。

对于未来的工作,他们计划探索为 STEGO 提供更多的灵活性,而不仅仅是将像素标记为固定数量的类别,因为现实世界中的事物有时可能同时是多个事物(例如“食物”、“植物”和“水果”)。作者希望这将为算法提供不确定性、权衡和更抽象思维的空间。

结论

论文发现,现代的自监督视觉主干可以被细化,以产生最先进的无监督语义分割方法。论文通过表明深层特征之间的对应关系与地面真实标签的出现直接相关来激励这种架构。论文通过引入一种新的对比损失,“提炼”了特征之间的对应关系。论文的系统 STEGO 生成低秩表示,将其聚类为准确的语义分割预测。论文将 STEGO 的损失与 CRF 推断联系起来,表明它与 Potts 模型中的 MLE 在我们数据集中的整个像素集合中等价。

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论