NTIRE 2023| 快手荣获Stereo Image Super-Resolution竞赛Winner Award

近日,快手在全球顶级图像处理竞赛NTIRE 2023的Stereo Image Super-Resolution竞赛中荣获Winner Award。该竞赛赛道一共有175支参赛队伍,经过激烈角逐,快手等三支队伍夺得并列冠军。

NTIRE 2023| 快手荣获Stereo Image Super-Resolution竞赛Winner Award
官方网站:https://codalab.lisn.upsaclay.fr/competitions/10047#learn_the_details

New Trends in Image Restoration and Enhancement(NTIRE) 竞赛是国际级别的学术竞赛,由苏黎世联邦理工学院计算机视觉实验室(Computer Vision Laboratory, ETH Zurich)主办。竞赛的主要内容聚焦图像low level处理任务,自2017年首次举办以来,每年都吸引了全球各个课题组和众多公司的关注,是最具影响力的国际竞赛之一。本届Stereo Image Super-Resolution竞赛分为两个阶段:初赛阶段,使用Flickr1024数据集中800张训练图像进行模型训练,112张图像用于模型验证;在决赛阶段,参赛方需使用竞赛方构建的不同源图像测试数据集,评估算法方案,指标为Y通道PSNR。

随着智能手机、仿生机器人等拍摄硬件的升级,越来越多的设备可以获取双目图像数据对,对这些双目图像进行超分辨率、增强等图像处理有助于目标检测和图像编辑等下游任务,具有实际应用价值。今年快手技术团队参与的Stereo Image Super-Resolution竞赛[1][2]任务是在传统Singel Image Super-Resolution(SISR)任务基础上,对同一设备获取的双目图像对进行超分辨率处理,从而获取高分辨率图像对。对比SISR任务,Stereo SR任务的左右视角图像内容之间可以相互借鉴,提升超分辨率模型的重构精度。然而,在左右视角图像特征提取、特征融合以及提升鲁棒性等问题上,仍然面临着巨大的挑战。

方法概述

针对于Stereo Image Super-Resolution竞赛任务,快手算法团队进行了大量技术调研,并依据竞赛设定(如不允许使用额外数据集、其他pretrain模型等)制定技术路线,提出了基于渐进式优化的双目图像超分辨网络模型。

数据增广

由于本次竞赛不允许使用额外数据集(仅800张训练图像),所以如何充分利用有限的数据集成为精度提升的关键。

对于SISR任务,数据增广的方法已经有十分完备的方案,如[3][4]等提出的图像放缩、图像旋转、图像翻转、图像块间融合等。对于Stereo SR任务,在NTIRE 2022[1][5]中介绍了适配双目超分辨率的方法如图像块间融合[4]、RGB通道重排、图像水平方向平移等。在决赛阶段中,由于测试数据分布不同于初赛阶段,快手团队除了采用上述方法外,还额外使用了左右视角图像互换、垂直方向平移等数据增广方法,经过实验验证,这些方法能有效提升模型的精度。

模型构建

目前,SR任务中SOTA方法是基于transformer的SISR图像超分辨网络HAT[6]。考虑到竞赛数据样本量、计算资源和基于transformer模型训练难度,团队选择了在Stereo SR任务的SOTA方法NAFSSR[5]算法作为基本网络,并进行了优化和修改。NAFSSR算法中在每个卷积组模块后均计算左右视角特征,并进行特征对齐与融合,对此团队参考[7]使用了多层级特征交互的特征计算方法,将上一级浅层交互特征和本层交互特征进行融合,提升模型表征能力和左右视角特征融合能力。

参考[8]研究的Dropout算子对于SR精度的影响,以及考虑竞赛任务中存在的跨域问题,团队采用了空间和通道维度的dropout算子,融合进入基础网络模型,并依据任务难度和基础网络进行不同参数配置。最后,团队设计了一个多级联的网络结构,从Coarst-to-Refine的思路渐近式求解模型,从而有效提升模型精度。

NTIRE 2023| 快手荣获Stereo Image Super-Resolution竞赛Winner Award
快手双目SR任务解决方案网络结构

多模型融合

对于竞赛任务而言,模型ensemble是必不可少的。对此,团队构建了两种多模型ensemble方法,分别从空间和通道两个维度进行融合。为了避免过拟合等问题,参考[9],Ensemble算法使用小型CNN网络实现,并在验证数据集上微调。该方法能够进一步提升模型精度。

后续,团队将以该双目SR技术进行深入优化,在拍摄图像编辑、多帧时序图像处理等任务中逐步落地,提升用户体验。

参考资料

[1] Wang, Longguang, et al. “NTIRE 2022 challenge on stereo image super-resolution: Methods and results.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

[2] Wang, Longguang, et al. “NTIRE 2023 challenge on stereo image super-resolution: Methods and results.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

[3] Timofte, Radu, Rasmus Rothe, and Luc Van Gool. “Seven ways to improve example-based single image super resolution.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

[4] Yoo, Jaejun, Namhyuk Ahn, and Kyung-Ah Sohn. “Rethinking data augmentation for image super-resolution: A comprehensive analysis and a new strategy.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.

[5] Chu, Xiaojie, Liangyu Chen, and Wenqing Yu. “NAFSSR: Stereo image super-resolution using NAFNet.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

[6] Chen, Xiangyu, et al. “Activating more pixels in image super-resolution transformer.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

[7] Liu, Ming, et al. “Stgan: A unified selective transfer network for arbitrary image attribute editing.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019.

[8] Kong, Xiangtao, et al. “Reflash dropout in image super-resolution.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

[9] Chao Li, Dongliang He, Xiao Liu, Yukang Ding, and Shilei Wen. Adapting image super-resolution state-of-the-arts and learning multi-model ensemble for video super-resolution. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, pages 0–0, 2019. 3

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论