目前,神经图像压缩(NIC)在分布内(in-distribution, IND)数据的 RD 性能和运行开销表现出了卓越的性能。然而,研究神经图像压缩方法在分布外(out-of-distribution, OOD)数据的鲁棒性和泛化性能方面的工作有限。本文的工作就是围绕以下关键问题展开的:
- 如何可靠地评估图像压缩模型的预期 OOD 性能?
- 能否更深入地了解不同图像压缩方法的运作方式?
- 训练数据属性和偏差如何影响数据驱动的压缩方法?
以下是本文的主要贡献:
- 设计了全面的基准数据集来评估图像压缩方法的 OOD 性能。
- 引入了一种基于功率谱密度(PSD)的方法来理解重建误差。不仅量化了误差的大小,而且还精确地突出了误差的产生位置(在频域中)。为了了解压缩方法在未见过的部署场景中的 OOD 性能,提出了傅立叶误差热图——一种可视化工具,用于突出压缩方法的重建性能对频域中不同扰动的敏感性。
- 使用基准数据集和检查工具,对经典编解码器与各种 NIC 模型进行了系统的比较。
题目:Neural Image Compression: Generalization, Robustness, and Spectral Biases
作者:Kelsey Lieberman, Charles Godfrey 等
来源:NeurIPS 2023
文章地址:https://arxiv.org/abs/2307.08657
内容整理:杨晓璇
文章中出现的符号和公式
由于论文涉及较多的符号和公式,在这里进行总结,方便读者进一步阅读。
分布外(OOD)图像压缩数据集
为了在环境或数据分布变化的情况下评估 NIC,作者生成了 CLIC 和 Kodak 数据集的变体,将其称为 CLIC-C 和 Kodak-C。-C 数据集包含每一个图像的 15 种常见损坏版本,并且有从 1 到 5 逐渐严重的损坏级别。
根据谱分析,将损失后的图像数据集分为高、中、低频三类。例如脉冲噪声,指的是它“包含大量高频内容”。在图 1 左傅里叶热图可以看到不同类型的损坏对原始图像频谱带来的影响。
实验
在 OOD 数据集和 IND 数据集上对不同图像压缩模型进行实验,使用 PSD 分析了几种图像压缩方法的性能,并通过傅里叶热图可视化。
- 传统编码器:JPEG、JPEG2000
- NIC 模型:超先验模型 SH NIC、ELIC模型
分布内数据的频谱失真评估
图 2 中的 RD 曲线是常见的评估方式,可以很清楚地得出在 IND 数据集上,性能比较 ELIC > SH NIC > JPEG2000 > JPEG。
图 2 左右分别展示了在固定 bpp 和固定 PSNR 下不同压缩模型的频谱变化,是重建误差 的傅里叶热图。通过谱分析,可以得到更细节的结论:
- 产生相同 PSNR 的两种方法可能会产生截然不同的频谱伪影。
- 随着压缩率的增加,不同的编解码器会优先考虑频谱的不同部分。
分布外数据的泛化和鲁棒性评价
图 3 展示了在不同频率的损坏下,不同压缩模型的 RD 曲线。顶行图是 C(c(χ)) 与 c(χ) 作对比。低行图是 C(c(χ)) 与 χ 作对比。每个图中都有三个不同损坏程度的曲线,损坏程度=1(最不透明),损坏程度=3,损坏程度=5(最透明)。
通过对图 3 的分析,可得到以下结论:
- 图像压缩模型对低频和中频偏移的推广效果优于高频偏移.
- NIC 模型在高频去噪损坏方面比经典编解码器更好。
通过频谱分析,可以进一步观察不同压缩模型在频率上的性能。图 4 顶行是泛化误差 G 的傅里叶热图, 低行是去噪误差 R 的傅里叶热图。
通过对图 4 的分析可以得到以下结论:
- 对于低频偏移和干净的图像,傅里叶热图是相似的。因为干净数据主要由低频/中频组成,而所有编码器重建了低频损坏的图像,因此 R 基本相同。
- NIC和经典编解码器在中频偏移上几乎没有泛化错误(<0.2),重建这些图像的效果比重建干净的图像要好。
- 在高频偏移上 NIC 模型的行为类似于低通滤波器。
总结
本文对图像压缩模型在 OOD 数据集上进行了细致的频谱分析,揭示了图像压缩的本质:过滤掉高频信息,保留低频和中频信息。NIC 模型同样通过神经网络完成了这一任务。本文有大量的实验对比,并且最后还提供了理论分析,感兴趣的读者可以去阅读原文。
通过本文,作者希望能给未来图像编码器的设计提供新思路。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。