医学图像的诊断无损压缩 | ICML 2023

医学图像（例如 X 射线）通常以高分辨率和大尺寸采集，以便捕捉更清晰的细节。本文工作实现了医学图像的压缩，同时保留了诊断所需的细粒度特征，这种特性被称为诊断无损。为此，使用超过一百万张医学图像来训练特定领域的神经压缩器，并开发用于测量压缩图像质量的综合评估方法。大量实验表明，与之前的方法相比，大规模、特定领域的神经压缩器训练可以提高压缩图像的诊断无损性。

题目：Diagnostically Lossless Compression of Medical Images
作者：Rogier Van der Sluijs, Maya Varma 等
文章地址：https://openreview.net/forum?id=ZiNFhNFxMf
内容整理：杨晓璇

引言

医学图像是临床实践中必不可少的诊断工具。由于医疗状况通常以存在小特征（例如微钙化、骨折）为特征，因此需要以高空间分辨率采集图像，以捕获所需的细节。然而，高分辨率医学图像通常具有较大的尺寸，特别是当覆盖较大的解剖区域时；这可能会导致计算机辅助诊断（CAD）复杂性增加。因此，有效的压缩方法对于实现医学图像的计算上可行的分析是必要的。

以前的有损压缩策略包括：

存储方法，针对低比特率进行优化（例如 JPEG2000）
缩放方法，将图像压缩为具有减小的输入维度的结构化表示（例如神经压缩器）。

存储方法生成的表示一般需要解压缩才能后续使用，不能提高 CAD 的计算效率；因此，这项工作只关注缩放方法。特别是，最近的工作表明，在数百万张自然图像上训练的大规模神经压缩器（例如自动编码器）可以有效地将图像压缩为缩小的潜在表示，同时保留关键视觉特征，从而提高下游计算效率。

然而，由于诊断无损的需要，医学图像压缩变得复杂，这意味着压缩图像应保留诊断所需的所有特征。自然图像通常只需要保留较大的全局特征来进行准确的图像解释，而医学图像则由必须保留精细的特征组成，以便实现有效的临床诊断。因此，将大规模神经压缩器应用于医学图像领域存在两个关键挑战：首先，现有的神经压缩器是在自然图像上进行训练的，在医学图像上实现是重大领域转变。特别是，特定领域训练对大规模神经压缩器性能的作用仍不清楚。其次，由于缺乏可用的评估方法，评估无损诊断的压缩方法具有挑战性。先前的工作主要使用感知指标来评估压缩图像的质量，这些指标并没有专门衡量临床相关特征的保存情况。

在这项工作中，通过引入第一个压缩高分辨率医学图像而设计的大规模特定领域变分自动编码器（VAE）来解决这些挑战。使用超过一百万张医学图像来训练不同压缩级别的多个特定领域的 VAE。然后，引入了一套定量和定性指标来评估本文的方法在诊断无损方面的性能。虽然压缩方法通常是从率失真的角度进行评估的，但作者提出了一个基准，除了标准的感知质量评估之外，还包括 5 个细粒度分类任务和专家的分析。

本文实验表明，神经压缩器的特定领域训练提高了压缩图像的诊断无损性。当将本文的领域特定 VAE 生成的压缩图像与现有的神经压缩器生成的图像进行比较时，在细粒度分类任务中获得了 5.7% 的平均性能改进。专家分析定性地证实了这些发现。此外，本文还表明，常用的感知指标不足以衡量诊断损失，这表明了对精细评估的迫切需要。

方法

医学图像的神经网络压缩

受先前大规模神经压缩器工作的推动，使用完全卷积 VAE 来学习函数 g 和 h。训练了六个具有不同值 f（4、8 和 16）和 C（1、4 和 16）的神经压缩器。

训练数据集 D 由来自两种模式的 X 射线数据组成：胸部 X 射线和全视野数字化乳房X光摄影 (FFDM)。选择这两种模式是因为胸部 X 光检查已通过大量公开数据进行了充分研究，FFDM 尺寸较大且存在对诊断至关重要的细粒度特征（例如微钙化）。最终数据集包含 1,021,356 张图像。

评估方法

使用三个评估任务来定量和定性评估关于诊断无损的压缩方法：

细粒度分类
专家分析
感知质量指标。

首先，通过五个分类任务评估压缩图像 z 中细粒度特征的保留：恶性检测、钙化识别和 FFDM 上的 BI-RADS 分类、基于手部 X 光的骨龄预测、以及儿童腕部 X 光的骨折检测。使用高分辨率网络 (HRNet)和监督线性探测评估分类准确性。

接下来定性评估压缩造成的信息损失。作者与两名放射专家进行了一项研究，向每位专家展示 50 张不重复的重建胸部 X 光片 (x^{^}) 以及真实图像 ( x)。所有 X 光检查均包含至少一处骨折。根据图像保真度、诊断损失和伪影的存在，对图像进行 5 分的 Likert 评分。

最后，通过使用标准感知质量指标将重建图像 x^{^} 与原始图像 x 进行比较来评估图像保真度，比较了 FID、PSNR 和 MS-SSIM。由于 FID 是使用不适合医学图像的 Inception V3 网络计算的，因此引入了基于 CLIP 和 BiomedCLIP 的两种变体。

实验

细粒度分类

评估了 5 个分类任务中压缩图像的质量，这些任务衡量了细粒度特征的保留情况。在表 1 中，比较了三种方法：双三次插值、在自然图像上训练的大规模神经压缩器 (SD VAE) 和本文的特定领域神经压缩器 (Ours)。使用三种不同的压缩因子 f（4、8 和 16）和不同数量的潜在表示通道数 C 来评估每种方法。原始的全尺寸输入图像最长尺寸为 1024 像素，这意味着压缩图像的最长尺寸为 256 像素 (f = 4) 到 32 像素 ( f = 16)。

如表 1 所示，本文的特定领域 VAE 在细粒度分类任务上始终优于 SD VAE。平均而言，在 5 项任务中，本文的特定领域 VAE 在压缩因子为 4 时比 SD VAE 提高了 6.33%，在压缩因子为 8 时比 SD VAE 提高了 6.25%，在压缩因子为 16 时比 SD VAE 提高了 4.50%。此外，在 f = 4 和 f = 8 时，本文的特定领域 VAE 在大多数任务中都优于双三次插值；然而，在 f = 16 时，双三次插值始终表现出色。研究结果表明，神经压缩器的特定领域训练对于提高压缩医学图像的诊断无损性至关重要。

然而，注意到本研究中评估的方法都没有表现出完美的诊断无损性。在大多数任务中，观察到使用全尺寸图像训练的分类模型和使用压缩图像训练的分类模型之间的性能显着下降（例如，骨龄分类最多 20 个点）。此外，观察到增加 C 会降低压缩比，但会导致性能下降；这表明分类模型无法有效地推理存储在潜在通道中的额外信息。研究结果表明，需要更有效的压缩方法以及能够有效推理多通道潜在样本的下游模型。

专家分析

定性评估图像保真度、诊断无损性、伪影的存在。评估在双三次插值 ( f ε {4，8，16}) 以及具有等效压缩因子的特定领域 VAE 上进行（图 1）。本文的神经压缩器的图像保真度比双三次插值高 2.1 分 ( p < 0.05)。本文的神经压缩器在诊断无损分数上也高 1.37 分 ( p < 0.05)。插值图像中的伪影（例如模糊、幻觉）更为常见（+1.48 分；p < 0.05）。结果表明，本文的神经压缩器比双三次插值更好地保留了关键诊断特征。

感知质量评估

通过使用标准感知质量指标比较原始图像和重建图像来评估图像保真度。使用两种不同的压缩因子 f（4 和 8）评估三种压缩方法（双三次插值、SD VAE 和本文的的特定领域压缩器）。如表 2 所示，在大多数指标中，本文的领域特定 VAE 优于双三次插值和 SD VAE。还注意到增加 C 可以提高图像感知质量的总体趋势。

然而，感知质量指标表现出一些不一致。表 2 中的结果表明，SD VAE 提供比双三次插值更好的图像保真度，但在 3.1 节中的分析表明了相反的情况：双三次插值更好地捕获了重要的诊断特征。同样，使用 f = 4 和 C = 1 训练的特定领域 VAE 实现了与 f = 4 的双三次插值类似的 PSNR 和 MS-SSIM 分数；然而，第 3.2 节的结果表明，放射科医生认为本文的 VAE 表现出更好的保真度。这些发现表明，通常用于评估压缩方法的感知质量指标不足以捕获诊断无损，应以更精细的评估来补充。