BiSeNet V2:用于实时语义分割的带引导聚合的双边网络

本文提出了一种能有效权衡速度和准确度的高效框架 BiSeNet V2,它包括一个细节分支和语义分支。由于减少了通道数并采取了快速下采样策略,语义分支是一个轻量分支。此外,设计了一个引导聚合层(GAL)来增强相互连接并融合两种类型的特征表示;还设计了一种新的助推器训练策略来在不增加额外推理成本的基础上提高语义分割性能。定量实验和定性评估表明,所提出的体系结构优于最先进的实时语义分割方法。

来源:International Journal of Computer Vision
作者:Changqian Yu, Changxin Gao 等
论文链接:https://arxiv.org/pdf/2004.02147.pdf
内容整理:王寒

在语义分割任务中,高层次和低层次的语义都非常重要。然而,,目前的语义分割方法大多选择牺牲低层次的细节换取更加快速的推理速度,这会造成准确度的显著降低。我们提出了一种能有效权衡速度和准确度的高效框架 BiSeNet V2,它包括一个细节分支和语义分支。细节分支具有更宽的通道数和较浅的网络层数来捕获低层次的细节生成高分辨率的特征信息;语义分支具有更窄的通道和较深的网络层数来获得高层次的语义上下文。由于减少了通道数并采取了快速下采样策略,语义分支是一个轻量分支。此外,我们设计了一个引导聚合层(GAL)来增强相互连接并融合两种类型的特征表示;我们还设计了一种新的助推器训练策略来在不增加额外推理成本的基础上提高语义分割性能。定量实验和定性评估表明,所提出的体系结构优于最先进的实时语义分割方法。具体来说,对于 2048×1024 大小的输入,我们在一张 NVIDIA GeForce GTX 1080 Ti 卡上以 156 FPS 的速度在 Cityscapes 测试集上实现了 72.6% 的平均 IoU,这比现有方法快得多,且我们的方法得到了更好的分割准确性。

网络结构

图片
BiSeNet V2 网络结构

上图展示了 BiSeNet V2 的网络结构:其中紫色框中的是蓝色的细节分支和绿色的语义分支;橙色框中是用于融合两个分支的引导聚合层(GAL);黄色框中是各层特征对应的 seg head。细节分支和语义分支的具体网络组成如下表所示。

图片
细节分支和语义分支的具体网络组成

每个阶段(S)包括一层或多层网络结构(例如Conv2d,Stem,GE,CE),每个网络结构有对应的核大小(k)、步长(s)、输出通道数(c)和重复次数(r),在语义分支中还有扩展参数e来控制每次操作对通道数的扩展。

图片
GAL 结构示意图

上图是用于两个分支特征融合的引导聚合层(GAL)的结构示意图,其中 DWConv表示 depth-wise convolution,APooling 是平均池化,BN 代表 batch normalization。

两个分支的输出具有不同级别的特征表示。Detail Branch 用于低层,而 Semantic Branch 用于高层。因此,简单的组合忽略了两种类型信息的多样性,导致性能变差和难以优化。基于观察,我们提出双边引导聚合层来融合来自两个分支的互补信息。GAL 利用语义分支的上下文信息来指导细节分支的特征响应。通过不同尺度的指导,我们可以捕捉到不同尺度的特征表示,它内在地编码了多尺度信息。同时,与简单的组合相比,这种引导方式可以使两个分支之间进行高效的通信。

实验及结果

训练策略

为了进一步提高分割精度,我们提出了一种助推器训练策略。顾名思义,它类似于火箭助推器:它可以在训练阶段增强特征表示,在推理阶段丢弃。因此,它在推理阶段增加的计算复杂度很小。我们可以将辅助分割头插入到语义分支的不同位置。

图片
分割头的具体结构

分割头的具体结构如上图所示,我们可以通过控制通道维数  来调整辅助分割头和主分割头的计算复杂度。我们分析了不同插入位置的影响,其结果如下表所示。

图片
不同插入位置的影响

实验细节

  • 数据集
    Cityscapes,Cambridge-driving Labeled Video Database,COCO-Stuf
BiSeNet V2:用于实时语义分割的带引导聚合的双边网络
  • 推理
    我们没有采用任何评估技巧,例如滑动窗口评估和多尺度测试,这可以提高准确性但很耗时。对于 2048×1024 分辨率的输入,我们首先将其调整为 1024×512 分辨率进行推理,然后将预测调整为输入的原始大小。我们仅用一张 GPU 测量推理时间并重复 5000 次迭代以消除误差波动,调整大小的时间包含在推理时间测量中。我们对 Cityscapes 数据集和 CamVid 数据集采用平均并集交集(mIoU)的标准度量,而对 COCO Stuff 数据集采用 mIoU 和像素精度(pixAcc)。
图片
推理结果

上图展示了两个分支的输出及完整结构的推理结果。

消融实验

图片
消融实验 1

首先对网络的各结构和不同的特征融合方式进行了实验,其结果如上表所示,选用 mloU 表征分割准确度、GFLOPs 衡量计算复杂度。

图片
消融实验 2

此外,本文还在 Cityscapes 数据集中对细节分支的参数选择及网络结构中的一些模块做了消融实验,其结果如上表所示。从实验数据可知本文提出的结构在准确度和复杂度上做到了较好的平衡。

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论