基于相对难度蒸馏的图像语义分割算法 | 南航陈松灿团队

基于相对难度蒸馏的图像语义分割算法 | 南航陈松灿团队

研究意义

基于深度学习的语义分割算法通常需要大量的计算资源和高昂的计算成本,限制了其在资源受限环境中的应用。为了解决这个问题,研究者们提出了知识蒸馏这种模型压缩的方法,能够显著简化繁琐的模型。该方法通过将已经训练好的教师模型的知识迁移到一个轻量级的学生模型上,实现在减少计算和存储开销的同时保持高性能的语义分割结果。

目前已有的知识蒸馏方法主要集中在转移各种结构化知识并设计相应的优化目标(蒸馏损失项),以鼓励学生模型模仿教师模型的输出。然而,引入过多的优化目标可能会导致训练不稳定,甚至是梯度冲突的问题。此外,这些方法忽略了师生网络之间对样本相对学习难度的指导原则。

本文工作

为了解决上述问题,本文提出了一种基于相对难度蒸馏(RDD)的语义分割算法框架,如图1所示。

基于相对难度蒸馏的图像语义分割算法 | 南航陈松灿团队
图 1 RDD算法框架流程图

该框架包含两个阶段的蒸馏方法:教师完全评估的相对难度蒸馏(TFE-RDD)和师生共同评估的相对难度蒸馏(TSE-RDD)。具体来说,在早期学习阶段,TFE-RDD利用教师模型的主分类器和辅助分类器的预测差异来获得相对难度知识,引导学生模型倾向于学习简单的像素,使学生模型快速收敛。在后期学习阶段,TSE-RDD利用教师模型和学生模型之间的预测差异来生成可靠的相对难度知识,引导学生网络学习哪些较为困难的像素。通过提出的RDD方法,教师模型可以在没有额外的优化目标的情况下对学生模型进行有效的指导。

本文的创新点如下:

(1) 在基于知识蒸馏的语义分割算法中考虑了样本难度对学生模型的学习过程的影响。

(2) 提出了一种新的基于相对难度蒸馏的语义分割方法,该方法无需构建额外的优化目标,且易于与其他知识蒸馏方法集成,提高其性能上限。

(3) 设计了两阶段的蒸馏算法,引导学生模型在不同的学习阶段关注最有价值的像素。

实验结果

本文所提出的RDD算法在四个常用的语义分割数据集上进行了验证。表1中展示了RDD在Cityscapes数据集上的实验结果。实验结果表明,提出的RDD在四个不同的学生网络中实现了最佳性能,证明了其对学生网络架构变化的鲁棒性。

基于相对难度蒸馏的图像语义分割算法 | 南航陈松灿团队
表 1 RDD在Cityscapes数据集上的分割结果

图2展示了RDD在Cityscapes数据集上进行语义分割的可视化结果。从可视化结果可以看出,RDD方法的有效性直观地得到了证明,生成的语义标签与真实标签更加一致。

基于相对难度蒸馏的图像语义分割算法 | 南航陈松灿团队
图 2在Cityscape验证集上的定性分割结果

表2展示了将RDD集成到其他主流的基于KD的语义分割方法上后的性能结果。通过集成RDD方法,每种方法的mIoU都有所提升,进一步缩小了与教师模型性能之间的差距。

基于相对难度蒸馏的图像语义分割算法 | 南航陈松灿团队
表 2 RDD与其他KD方法集成的分割结果

研究团队

梁栋,孙悦,杜云,陈松灿,黄圣君:南京航空航天大学计算机科学与技术学院,模式分析与机器智能(工信部)重点实验室

文章下载

Dong LIANG, Yue SUN, Yun DU, Songcan CHEN & Sheng-Jun HUANG. Relative Difficulty Distillation for Semantic Segmentation. Sci China Inf Sci, 2024, doi: 10.1007/s11432-023-4061-2

链接:https://www.sciengine.com/SCIS/doi/10.1007/s11432-023-4061-2;JSESSIONID=ba3d582c-dd74-440b-a9fd-8da30d3a2496

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论