使用条件生成器进行多重真实感图像压缩

本文提出一种将图像压缩的解码器与条件生成对抗网络结合的模型。MSE 不再是评价解码图像的唯一标准，通过调节因子，可以获得高感知质量的解码图像。这可以使得在低码率条件下解码的图片能使人的感知更愉悦，同时生成器也不会影响图像的真实性。通过本文的方法，”失真-感知” 得到权衡，在高感知质量条件下有更低的图像损失，在低图像损失下有更好的感知质量。

题目：Multi-Realism Image Compression with a Conditional Generator
作者：Eirikur Agustsson, David Minnen 等
来源：CVPR 2023
文章地址：https://arxiv.org/abs/2212.13824
内容整理：杨晓璇

动机和贡献

有损图像压缩考虑用于存储输入图像的比特数和重建图像与原始图像的接近程度之间的权衡。当使用更多的比特数时，重建图像能够更接近输入图像。这个想法在基本的“速率-失真”权衡中得到了形式化，其中“速率”代表比特率，“失真”是为输入图像和重建图像之间的均值平方误差（MSE）。

但在低比特条件下，纯粹的“速率-失真”优化会导致重建图像存在伪影。因为以 MSE 为目标，最优的重建时映射到给定表示的所有图像的平均图像。直观上，人们更喜欢清晰且纹理自然的“感知重建”，而不是平均图像重建。“感知重建”的 MSE 可能比平均图像差，但用户可能会发现它在感知上更令人愉悦且不那么虚假。这其中就存在着“失真-感知”的权衡问题。

作者在 2020 年的工作已经成功地优化了“速率-失真-感知”的三重权衡。但是，有一个警告：由于感知约束可能会产生远离输入的重建，因此重建图像可能会受到怀疑，因为不清楚哪些细节是原始的，哪些是由架构添加的。

作者通过训练一个解码器来解决这个问题，在给定单个压缩表示的情况下，该解码器要么生成很少或不生成细节的重建，要么生成细粒度细节，或介于两者之间的任何内容。接收器可以决定生成多少细节，因此根据“感知因子” β 来调节解码器，接收器可以从单个表示 ŷ 产生完整的、不同“失真-感知”的图像。图 1 展示了这个过程：当 β=0 时，解码器只考虑 MSE 失真，会重建失真更低的图像；当 β 增大时，重建图像的感知质量会提高，但会造成一定的失真。

使用条件生成器进行多重真实感图像压缩 | CVPR2023 — 图 1 从同一表示 ŷ 中解码不同的重建图片

本文的主要贡献总结如下：

通过使用条件生成器在图像压缩表示中权衡失真和感知之间的关系，在生成和非生成压缩世界之间架起桥梁。
本文模型在高分辨率基准数据集的“失真-感知”方面实现了新的最先进水平。本文的方法在高感知质量下实现了更好的失真，在低失真（高 PSNR）下实现了比以往更好的感知质量。

提出的方法

整体架构

在本文中作者并未展示模型整体架构的图像，只是提到参考作者之前的工作《High-Fidelity Generative Image Compression》（以下提到称 HiFiC）。在此展示 HiFiC 文章中的模型架构示意图，见图 2。

模型整体依旧使用了经典的超先验架构，但在解码器端结合了生成对抗网络（GAN）。模型可看作有以下三部分组成：

编码器 E
既是解码器，又是 GAN 中的生成器 G
判别器 D

有损图像压缩模型使用的是“速率-失真”权衡损失函数：

通常，通过改变 λ 来训练一组模型，这会导致模型覆盖不同的比特率。

判别器 D 用来预测给定 x 是对应于表示 ŷ 的真实图像的概率。GAN 网络的损失函数为：

调节因子

图 3 所示是 β 调节因子作为条件的作用机制，将其称为 FourierCond。灵感来自于扩散模型在 timestep 上的条件。首先，通过计算傅里叶特征得到所有层共享的特征 f(β)，然后应用两层的 MLP 将 f(β) 投影到 G 中的每个残差块的卷积层。

实验结果

数据集

从大量高分辨率图像中提取的 256 像素切片上训练本文方法，其中每个图像都会随机调整大小，以使短边在 500 到 1000 像素之间。在以下常见基准数据集评估图像压缩：Kodak 和 CLIC 2020。对于 Kodak，只评估 PSNR，因为它的图像太少，无法可靠地估计 FID。对于 CLIC 2020，评估 PSNR 和 Frechet Inception Distance score（FID，用于评估由生成性对抗网络生成的图像的质量）。作者还在常用于评估生成模型的数据集：MS-COCO-30K 上进行评估 FID 和 PSNR。

Baseline

SOTA MSE Baseline：ELIC 模型架构，熵模型替换为 Charm（来自于本文团队的工作），并将解码器中的 N 调整为 256（与本文模型对齐）。所得的模型在 PSNR 评估下与 ELIC 相当，在 Kodak 上约有 0.1dB 的差距。

GAN baseline：固定 β=2.56 训练模型，即与本文的主要模型相似，但是只能针对单个“失真-感知”权衡的非条件生成器。作者使用这个 baseline 来调整 LPIPS 的权重 Cp 和因子 β，然后将生成的 Cp 用于本文的主要模型。

其余的 baseline 包括该团队之前提出的模型 HiFiC，Charm，以及传统图像压缩模型 BPG 和 VTM。

结果展示

图 4 所示是本文的主要实验结果，在 MS-COCO 和 CLIC 两个数据集上分别测试了 PSNR 和 FID。图 4 表明，本文的模型可以在“失真-感知”权衡上实现新的最先进技术：在高感知质量方面（β=2.56），模型与最先进的生成方法 HiFiC 在 FID 上的评估相当或更优，同时在 PSNR 评估上显著优于 HiFiC。在低失真方面 (β=0)，模型在 PSNR 评估下表现出色，接近 SOTA MSE Baseline，同时在 FID 评估下显著优于它。

总结来说，本文模型在高 β 模式下比 HiFiC 得到了更接近于输入图像的结果，也就是更高的 PSNR；同时在低 β 模式下获得了比 MSE 模型跟高的感知质量。