用于超分辨率视频增强的 AI/DL 模型最新趋势技术概览

IBC2023：本技术论文全面概述了基于深度学习的最新超分辨率方法及其各自的优缺点，重点介绍了如何为云中的实际部署量身定制这些方法，以减轻其典型的局限性。

内容摘要

高昂的制作成本一直是延迟 UHD 广播产品广泛部署的关键因素。只有少数特殊事件倾向于使用 UHD 制作和播出，而大多数真正的 4K 内容都来自 Netflix、亚马逊视频或迪斯尼+ 等流媒体提供商，即使在这些情况下，内容的可用性仍然比非 4K 资产有限得多。因此，UHD 显示器的潜力没有得到充分发挥，最终的画面表现依赖于观看设备的升频能力，而这种能力通常受到计算和功耗限制的严重制约。

高质量、可靠的升频转换是加快 UHD 可用性的可行解决方案，它允许内容提供商通过从现有高清库中升频转换高质量内容来补充其产品，从而大幅降低成本，并利用其当前的生产流水线直至最后的升频转换阶段，同时保留对 UHD 屏幕上内容呈现方式的控制。经过广泛研究的基于深度学习的方法是此类应用的理想选择，其性能大大优于传统技术，尤其适合云部署，GPU 加速可帮助提供高吞吐量推理。

本文全面概述了最先进的基于深度学习的超分辨率方法及其各自的优缺点，重点介绍了如何为云中的实际部署量身定制这些方法，以减少其典型的局限性。

导言

超分辨率（SR）方法 [1] 是指从低分辨率输入生成高分辨率图像或视频的过程。几十年来，此类技术一直是一个重要的研究课题，早期的超分辨率方法依赖于空间插值技术[2,3]。虽然这些方法简单有效，但由于无法生成高频细节，上标图像的质量受到限制。多年来，随着更复杂方法的引入，包括统计、基于预测、基于斑块或基于边缘的方法，取得了一些进展[4-16]。然而，最重要的进步来自于新兴的深度学习技术[17,18]，尤其是卷积神经网络（CNN）。虽然卷积神经网络（CNN）早在 20 世纪 80 年代就已出现，但直到 20 世纪 90 年代中期才开始受到研究界的广泛关注[20]，这主要是由于缺乏适合训练和运行大型网络的硬件。此后，CNN 经过多次改进，成为图像分析和处理任务中功能最强大、应用最广泛的深度学习技术之一。近年来，CNN 在图像分类[21,22]、物体检测[23]或语义分割[24]等任务中取得了最先进的性能[25]。

第一种基于卷积神经网络（CNN）的超分辨率方法一般归功于 Dong 等人，他们在 2015 年发表的论文 “Image super-resolution using deep convolutional networks”（使用深度卷积网络实现图像超分辨率）中提出了 “SRCNN”（超分辨率卷积神经网络）[26]。作者开发了一种三层 CNN 架构，能够通过使用大量训练数据集来学习从低分辨率图像到高分辨率图像的映射。随后出现了许多基于 CNN 的超分辨率方法，每种方法都在数据映射、网络架构和大小、优化功能或计算效率等方面进行了改进，其中许多方法多年来在各种基准数据集上取得了最先进的性能[27,31]。

另一项重要发展是残差网络的诞生[32]。在传统的深度神经网络中，随着层数的增加，梯度在训练过程中会越来越弱，因为它们会在网络中回传。其中一些梯度可能会消失或爆炸，导致学习过程不稳定或停止收敛。这使得训练深度网络越来越具有挑战性。ResNet 架构通过引入残差连接的概念来解决这一问题，即某些层的输出可以绕过其他层，直接添加到后续层的输入中。这样，网络就可以学习残差映射而不是完整映射，从而可以训练出深度更高的网络，通常可以达到数百层。这使得 ResNet 架构在包括超分辨率在内的许多计算机视觉任务中大受欢迎。

在这些创新的基础上，随着训练和运行更大、更复杂网络的硬件能力的提高，超分辨率领域在过去几年中发展非常迅速。自动编码器和生成对抗网络（GANs）等生成模型的进步带来了新的可能性，即使在输入数据有噪声或不完整的情况下，也能提供与高分辨率图像的底层分布相匹配的高质量上分辨率。变压器模型和扩散等新趋势仍在进一步推动可实现的目标。

然而，每种网络架构都有其自身的优点和缺点，因此根据目标应用定制每种解决方案就变得非常重要，尤其是计算复杂性和性能之间的平衡往往是实际系统设计中最重要的限制因素。

论文地址：https://www.ibc.org/download?ac=24733