VCISR：在盲图像超分中考虑视频压缩带来的伪影

在盲单图像超分辨率 (SISR) 任务中，现有工作已成功恢复图像级未知退化。然而，当单个视频帧成为输入时，这些工作通常无法解决由视频压缩引起的退化，例如蚊式噪声、振铃、块状和阶梯噪声。在这项工作中，我们首次提出了一种基于视频压缩的退化模型来合成盲 SISR 任务中的低分辨率图像数据。我们提出的图像合成方法广泛应用于现有的图像数据集，因此单个退化图像可以包含由有损视频压缩算法引起的失真。这克服了视频数据中特征多样性的泄漏，从而保持了训练效率。通过将视频编码伪影引入 SISR 退化模型，神经网络可以超分辨率图像，能够恢复视频压缩退化，并且在恢复由图像压缩引起的一般失真方面也取得更好的效果。我们提出的方法在 SOTA 无参考图像质量评估中取得了优异的表现，并在各种数据集上表现出更好的视觉质量。此外，我们在视频超分辨率 (VSR) 数据集上评估了使用我们的降级模型训练的 SISR 神经网络。与专门为 VSR 目的设计的架构相比，我们的方法表现出相似或更好的性能，证明了提出的注入基于视频的降级的策略可以推广到解决更复杂的压缩伪影，即使没有时间线索。

来源：WACV 2024
题目：VCISR: Blind Single Image Super-Resolution with Video Compression Synthetic Data
作者：Boyang Wang, Bowen Liu, Shiyu Liu, Fengyu Yang
原文链接：https://openaccess.thecvf.com/content/WACV2024/html/Wang_VCISR_Blind_Single_Image_Super-Resolution_With_Video_Compression_Synthetic_Data_WACV_2024_paper.html
内容整理：刘潮磊

引言

研究问题：

在盲图像超分中考虑视频压缩带来的伪影

SOTA 工作：

GRL: Efficient and explicit modelling of image hierarchies for image restoration. CVPR 2023
SwinIR: Image Restoration Using Swin Transformer. ICCV 2021
RealBasicVSR: Investigating Tradeoffs in Real-World Video Super-Resolution. CVPR 2022

动机：

有时图像超分的输入会是视频帧，而视频压缩的影响通常没有被考虑
像WebP这样的图像压缩方法也会视频压缩中的帧内预测手段

贡献：

在图像超分中考虑了视频压缩带来的影响
制作了含有视频压缩伪影在内的多样化失真数据集VC-RealLQ

方法

图像退化模型

VCISR：在盲图像超分中考虑视频压缩带来的伪影 | WACV 2024 — 图1

输入图像预处理

目的：

在后续退化过程中能加入视频压缩伪影

做法：

将图像裁剪成不重叠的块
将这些块排序，模拟视频序列

基础退化流程

目的：

加入各种失真类型

做法：

Blur：相机失焦，通过卷积模拟
Resize：降采样，通过bicubic实现
Noise：添加高斯噪声
JPEG压缩

视频压缩

做法：

对模拟的视频序列编码后直接解码

目的：

在图像中加入视频压缩伪影

编码器：

MPEG-2 , MPEG-4, H.264 , H.265

超分网络架构

图像特征分类：

局部：几个像素，边缘和局部颜色
区域：几十个像素，小物体和大物体的组成部分
全局：相似结构可能会以不同尺度复制

Transformer Layer

目的：

处理图像的三种特征

通道：

卷积：处理局部特征
Window Attention模块：处理区域特征
Anchored Stripe Attention模块：处理全局特征
Skip Connection

锚定条纹自注意力：

利用相似结构以不同尺度复制的特点

Anchored Stripe Attention

实验设计与验证

实验设置

数据集：

训练：DIV2K
测试：RealSR-Nikon, DRealSR(图像超分数据集); REDS, AVC-RealLQ, VideoLQ (视频超分数据集)

退化过程设置：

视频压缩算法：MPEG-2, MPEG-4, H.264, H.265——[0.2, 0.2, 0.4, 0.2]
H.264——CRF [20, 32]; H.265——CRF [25, 37]
MPEG-2, MPEG-4——比特率 [4000, 6000] Kbit/s

Baseline：

图像超分方法：RealSR, Real-ESRGAN+ ,BSRGAN , SwinIR , GRL
视频超分方法：RealBasicVSR, DBVSR

评价指标：

NIQE, BRISQUE, NRQM, CLIPIQA（无参考质量评估）

实验结果

图像超分数据集结果

视频超分数据集结果

结论

这项工作提出了一种新颖且多功能的基于视频编解码器的降级模块，以丰富现有的图像 SR 降级管道并提高其与实际练习的接近度。我们为 LR 图像合成提出的这种方法可以在没有视频数据的情况下模拟来自各种视频编解码器的失真，这导致 1) 可以添加到现有 SR 降级管道中的通用元素；2) 更好地近似伪影以覆盖现实世界图像和视频中更复杂的质量损失。我们通过在现实世界的 ISR 和 VSR 数据集上评估使用所提出的降级流程训练的统一网络来证明这种方法的可行性。在这两个任务中，与其他具有更少网络参数和计算复杂度的最先进的方法相比，我们的工作表现出相似或更好的性能。