DAGN：通过敏感度解耦学习减少图像压缩伪影

借助深度学习技术，近期研究在图像压缩伪影减少方面取得了重大进展。尽管现有方法的性能有所提升，但它们仅专注于学习从压缩图像到原始图像的映射，而忽略了给定压缩图像的内在属性，这极大地损害了下游解析任务的性能。与这些方法不同，本文提出将内在属性解耦为两个互补的特征以减少伪影，即压缩不敏感特征（用于在训练期间正则化高级语义表示）和压缩敏感特征（用于感知压缩程度）。为此，本文首先采用对抗性训练来正则化压缩和原始编码特征以保留高级语义，然后本文开发了压缩质量感知特征编码器以用于压缩敏感特征。基于这些对偶互补特征，本文提出了一种对偶感知指导网络 (DAGN)，以利用这些感知特征作为解码阶段的转换指导。在本文提出的 DAGN 中，开发了一个跨特征融合模块，通过将压缩不敏感特征融合到伪影减少基线中来保持压缩不敏感特征的一致性。本文的方法在 BSD500 上实现了平均 2.06dB PSNR 增益，优于最先进的方法，并且在 BSD500 上仅需 29.7 毫秒即可处理一张图像。此外，在 LIVE1 和 LIU4K 上的实验结果也证明了所提方法在定量指标、视觉质量和下游机器视觉任务方面的效率、有效性和优越性。

来源：IEEE Transactions on Image Processing, 2024
题目：Sensitivity Decouple Learning for Image Compression Artifacts Reduction
作者：Li Ma, Yifan Zhao, Peixi Peng, Yonghong Tian
原文链接：https://ieeexplore.ieee.org/abstract/document/10539075
内容整理：刘潮磊

引言

研究问题：给定一张压缩图像，尝试减少其伪影。

SOTA 工作与所属团队：

(ARCNN)Compression artifacts reduction by a deep convolutional network，香港大学
(DMCNN) DMCNN: Dual-domain multiscale convolutional neural network for compression artifacts removal，北京大学
(IPT) Pre-trained image processing transformer ，北京大学，华为，悉尼大学
(SwinIR) SwinIR: Image restoration using Swin transformer，苏黎世联邦理工学院
(QGAC) Quantization guided JPEG artifact correction，马里兰大学，中佛罗里达大学
(FBCNN) Towards flexible blind JPEG artifacts removal，苏黎世联邦理工学院

动机：从压缩图像中提取对于压缩不敏感的语义信息和压缩敏感的细节信息，并利用这些信息引导网络减少压缩图像的伪影

贡献：

提出两个压缩感知模块，分别用于提取压缩不敏感和压缩敏感的信息
提出一个基于提取出的信息的双重引导网络，用于引导压缩图像

方法

整体思路

DAGN：通过敏感度解耦学习减少图像压缩伪影 | IEEE TIP 2024 — 图1

从压缩图像中分别提取出压缩不敏感信息(高层次语义信息)和压缩敏感信息
利用这些信息引导压缩图像，减少伪影

压缩感知模块——提取压缩不敏感信息

网络组成：

由Encoder、Decoder、鉴别器组成

鉴别器：

输入：encoder提取出的压缩不敏感特征
输出：该特征来源于原图的概率

约束：

内容约束：约束decoder输出的图像与输入的相似度
一致性约束：从压缩图像和原图中提取出的压缩不敏感信息(语义信息)要尽可能相似

网络具体结构：

Encoder：ResNet-50 encoder，并去除平均池化层，将最后卷积层步长由2替换至1
Decoder：15层的卷积，前5层是普通的卷积层，接下来的层是卷积层和反卷积层交替排列
鉴别器：2048×2048×1的MLP

压缩感知模块——提取压缩敏感信息

网络组成：

由Encoder、Decoder、QF预测器组成

QF预测器：

输入：encoder提取出的压缩敏感特征
输出：采用独热编码表示的QF值

约束：

内容约束：约束decoder输出的图像与输入的相似度
压缩敏感约束：encoder提取出的特征要对压缩程度很敏感→QF预测结果要精准

网络具体结构：

Encoder：ResNet-50 encoder，并去除平均池化层，将最后卷积层步长由2替换至1
Decoder：15层的卷积，前5层是普通的卷积层，接下来的层是卷积层和反卷积层交替排列
QF预测器：2048×2048×100的MLP

损失函数L：

整体网络

网络组成：

主干：Baseline Encoder→Guided Decoder
双重引导：压缩敏感/不敏感信息引导模块
跨特征融合：融合基本特征和压缩不敏感特征

压缩不敏感信息引导模块

目的：

提取压缩不敏感信息
并由此引导压缩图像减少伪影

输出：

压缩不敏感特征
Guided Decoder中用到的三组参数β_i、Y_i

压缩不敏感信息引导模块

网络结构类似
输出：Guided Decoder中用到的三组参数ε_i、n_i

跨特征融合模块

目的：

将压缩不敏感特征混合到Baseline上
保证原始图像与最终结果之间语义信息上的一致性

实现方式：

将压缩不敏感特征池化
与base feature相乘
skip connection

Guided Decoder

目的：

利用压缩(不)敏感信息，减少压缩图像伪影

网络结构：

第一部分：四个残差块组成(两个3×3卷积层，中间带有 ReLU 激活和批量归一化)
第二部分：三个双重引导模块(DAGB)

双重引导模块(DAGB)

网络结构：

Skip Connection：来自Baseline Encoder
Tconv：上采样
四个压缩敏感引导块
四个压缩不敏感引导块

处理流程：

八个引导块分别接收先前对应的信息引导模块的输出参数𝛽、𝛾、𝜖、𝜂

实验设计与验证

实验设置

数据集：

训练：DIV2K, Flickr2K
测试：LIVE1, BSD500, LIU4K

训练细节：

训练、测试时使用的压缩图像统一用MATLAB中的JPEG encoder处理得到
压缩(不)敏感信息提取部分与其他部分分开训练
训练时QF值在10到95之间随机采样

评价指标：

PSNR
SSIM
PSNR-B：对块效应敏感的图像质量指标

实验结果

LIVE1、BSD500数据集上测试结果

LIU4K(4K数据集)上测试结果

计算复杂度比较

运行时长- PSNR提升散点图

计算机视觉任务——目标检测、语义分割减少伪影后，也会对下游计算机视觉任务产生一定影响

消融实验

探究压缩(不)敏感引导模块、跨特征融合模块的功能：

Baseline：只有Base Encoder和Guided Decoder
Baseline w. CIGM：加入压缩不敏感引导模块
Baseline w. CSGM：加入压缩敏感引导模块
Baseline w. CFM：加入跨特征融合模块

视觉效果比较

结论

在本文中，我们从内在特征解耦的新视角出发，解决压缩伪影减少问题。为此，我们提出了一个双重意识指导网络，利用内在属性来指导伪影减少的学习。我们首先将内在属性解耦为压缩不敏感特征和压缩敏感特征。然后设计压缩不敏感指导模块、压缩敏感模块和交叉特征融合模块来利用这些特征来减少压缩伪影。在合成和真实压缩数据集上进行的大量实验证明了所提出方法的有效性和优越性。这项工作的一个未来方向是探索将学习与其他图像恢复任务（如图像去噪、超分辨率和去模糊）解耦。