CVPR 2022 | 基于隐扩散模型的高分辨率图像合成

通过将图像形成过程分解为自动编码器去噪，扩散模型(diffusion models, DMs)实现了通过一个指导机制来控制图像生成过程，而不需要再训练。然而，由于这些模型通常直接在像素空间中运行，对扩散模型进行优化通常需要耗费数百天的时间。为了能够在有限的计算资源上进行训练，同时保持其质量和灵活性，本文将扩散模型应用于强大的预训练自动编码器的隐空间。与以往的工作相比，可以在降低复杂度和保持细节之间达到最优点。通过在模型结构中引入交叉注意层，将扩散模型转化为功能强大且灵活的生成器，用于一般条件输入(如文本或边界框)，同时以卷积方式使得高分辨率生成成为可能。本文提出的隐扩散模型(LDM)在图像修补和类条件图像合成方面具有一定优势，并且在各种任务(包括文本到图像合成、无条件图像生成和超分辨率)上具有高度竞争性的性能，此外与基于像素的扩散模型相比显着降低了计算需求。

作者：Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bjorn Ommer
来源：CVPR 2022
论文题目：High-Resolution Image Synthesis with Latent Diffusion Models
论文链接: https://openaccess.thecvf.com/content/CVPR2022/papers/Rombach_High-Resolution_Image_Synthesis_With_Latent_Diffusion_Models_CVPR_2022_paper.pdf
代码链接: https://github.com/CompVis/latent-diffusion
内容整理：曹靖宜公众号——煤矿工厂

引言

图像合成是近年来发展最为迅猛的计算机视觉领域之一，也是计算需求最大的视觉领域之一。目前复杂自然场景的高分辨率合成主要是基于似然的模型，自回归（Autogrressive）模型可能需要数十亿的参数，此外，GAN 局限于变异性相对有限的数据，对抗性学习过程不容易扩展到建模复杂的多模态分布。最近，从去噪自动编码器的层次构建的扩散模型已经显示在图像合成领域取得了一定成果，与其他类型的生成模型相比，即使是无条件的 DM 也可以很容易地应用于着色或基于笔画的图像合成等任务。作为基于似然的模型，它们不像 GAN 表现出模式崩溃和训练不稳定性，并且通过大量利用参数共享模拟自然图像的高度复杂的分布，而不像 AR 模型那样涉及大量参数。

本文提出的方法从分析像素空间中已经训练好的扩散模型开始，图1显示了训练好的模型的率失真权衡。与任何基于似然的模型一样，学习大致可以分为两个阶段: 第一阶段是感知压缩阶段，去除高频细节，但仍然学习到很少的语义变化；在第二阶段，实际的生成模型学习数据的语义和概念组成(语义压缩)。作者将训练分为两个不同的阶段: 首先，训练一个自动编码器，它提供一个低维的表示空间，这在感知上等同于数据空间。重要的是，与以前的工作相比不需要依赖于过度的空间压缩，因为在学习的隐空间中训练 DM，其在空间维度方面表现出更好的缩放性质，将得到的模型类称为隐扩散模型(LDM)。这种方法的一个显著优点是，只需要训练通用自动编码阶段一次，因此可以重用它进行多个 DM 训练或探索不同的任务。这使得能够有效地探索各种图像到图像和文本到图像任务的大量扩散模型。

图1：感知和语义压缩。数字图像的大部分位对应于难以察觉的细节。虽然 DM 允许通过最小化损失项来抑制这种语义上无意义的信息，但是梯度(在训练期间)和神经网络骨干(训练和推理)仍然需要在所有像素上进行评估，导致多余的计算和不必要的昂贵的优化和推理。本文建议隐扩散模型(LDMs)作为一个有效的生成模型只消除不可察觉的细节。

本文主要贡献如下:

与纯粹基于transformer的方法相比，本文方法可以扩展到更高维的数据，因此(a)可以生成更好的重建效果和(b)可以有效应用于百万像素图像的高分辨率合成。
本文方法在多任务(无条件图像合成、修补、随机超分辨率)和数据集上获得了具有竞争力的性能，同时显著降低了计算成本。与基于像素的扩散方法相比也显著降低了推理成本。
与同时学习编码器/解码器架构和基于分数的先验的现有工作相比，本文方法不需要重建和生成能力的权重，从而确保了细节的重建，并且几乎不需要隐空间的正规化。
对于超分辨率、修补和语义合成等密集条件任务，本文可以以卷积的方式应用，生成高分辨率（1024 x 1024像素）图像。
此外，本文设计了一个基于交叉注意的通用机制，使得多模式训练成为可能，可以使用它来训练类条件模型、文本到图像模型、布局到图像模型。

方法

为了降低训练扩散模型对高分辨率图像合成的计算需求，作者观察到，尽管扩散模型允许通过对相应的损失项进行欠采样来忽略感知上不相关的细节，但它们仍然需要在像素空间中进行昂贵的功能评估，这导致对计算时间和能源资源的巨大需求，因此建议通过引入压缩和生成学习阶段的明确分离来避免这个缺点。

为了达到这个目的，作者利用一个自动编码模型来学习一个在感知上与图像空间等价的空间，提供显著降低的计算复杂度。这种方法提供了几个优点: (i)离开高维图像空间，得到的数字模型计算效率更高，(ii)利用从 UNet 体系结构继承的 DM 的归纳偏差，对于具有空间结构的数据特别有效，(iii)获得了通用压缩模型，其隐空间可用于训练多个生成模型，并且也可用于其他下游应用。

感知图像压缩

感知压缩模型是基于以前的工作，由感知丢失和基于补丁的对抗目标组合训练的自动编码器组成。这保证了重建局限于图像流形通过强制局部真实感和避免仅依靠像素空间损失引入的模糊。

隐扩散模型

扩散模型

隐表征生成建模

通过训练好的由 E 和 D 组成的感知压缩模型，可以进入一个有效的、低维的隐空间，在这个空间中高频率的、不可感知的细节被抽象出来。与高维像素空间相比，该空间更适合基于似然的生成模型，因为它们现在可以(i)关注数据的重要语义位，并且(ii)在较低维度的计算更有效的空间中进行训练。与以前在高度压缩的离散潜伏空间中依赖于自回归的基于注意力的变压器模型的工作不同，本文模型可以提供图像特异性感应偏差。这包括主要从二维卷积层构建基础 UNet 的能力，以及使用重新加权界限进一步将目标集中在感知上最相关的位置:

调节机制

基于图像条件对，学习条件 LDM 通过：

实验

感知压缩权衡研究

本节分析具有不同下采样因子 f ∈{1,2,4,8,16,32} (缩写为 LDM-f，其中 LDM-1对应于基于像素的 DM)的 LDM。为了获得一个可比较的测试场，将本节所有实验的计算资源固定在一个单一的 NVIDIA A100上，并对所有模型进行相同步数和相同参数的训练。

下图显示了 ImageNet 数据集上 2M 步类条件模型的样本质量的训练进度，可以看到，i) LDM-{1,2}的小下采样因子导致训练进展缓慢，而 ii)过大的 f 值导致训练步骤相对较少后保真度停滞。作者将其归因于 i)将大部分感知压缩留给扩散模型，ii)过强的第一阶段压缩导致信息丢失，从而限制了可实现的质量。LDM-{4-16}在效率和感知一致的结果之间取得了良好的平衡，这表现在 2M 步训练后，基于像素的扩散(LDM-1)和 LDM-8之间的显着 FID 差距为38。

分析 ImageNet 数据集上具有不同下采样因子 f 超过2M 步的类条件 LDM 的训练。

在下图中，比较了在 CelebAHQ 和 ImageNet 上训练的模型，使用 DDIM 采样器对不同数量的去噪步骤进行采样速度，并将其与 FID 评分进行绘图。LDM-{4-8}在感知和概念压缩比不合适的情况下优于模型。特别是与基于像素的 LDM-1 相比，它们可以获得更低的 FID 分数，同时显著提高样本吞吐量。像 ImageNet 这样的复杂数据集需要降低压缩率以避免降低质量。综上所述，观察到 LDM-4和 LDM-8处于获得高质量合成结果的最佳表现状态。

推理速度与样本质量: 比较 CelebA-HQ (左)和 ImageNet (右)数据集上不同压缩量的 LDM。

基于隐扩散的图像生成

在 CelebA-HQ，FFHQ，LSUN-Churches和LSUN-Bedrooms数据集256 x 256的图像上训练无条件模型，并评估 i)样本质量和 ii)使用FID和Precision-and-Recall。下表展示了实验结果，在 CelebA-HQ 上达到了最好的FID（5.11），表现优于以前的基于可能性的模型和 GAN。相比之下本文算法也优于隐扩散模型与第一阶段联合训练的 LSGM，在一个固定的空间训练扩散模型，避免了权衡重建质量和学习先验超过隐空间的困难。

在 CelebA-HQ ，FFHQ，LSUN-Church，LSUN-Bedroom和类条件 ImageNet上训练的 LDM 在每个数据集的定性结果。

基于隐扩散的超分辨率

LDM 可以直接调节低分辨率图像，从而有效地训练获得超分辨率图像。在第一个实验中，作者遵循 SR3，将图像降级固定在一个4倍下采样的双三次插值上，并在 ImageNet 上按照 SR3的数据处理进行训练。实验使用在 OpenImages 上预先训练的 f = 4自动编码模型，并将低分辨率条件 y 和输入串联到UNet 。定性和定量结果如下所示。

基于 ImageNet-Val 的 ImageNet 64→256超分辨率。在渲染逼真纹理方面，LDM-SR 具有优势，但 SR3可以合成更加一致的精细结构。

ImageNet-Val 上的 × 4升级结果。(256²) ; ：验证集计算的 FID 特征， : 训练集计算的 FID 特征; : 在 NVIDIA A100上评估

可以看出，在 FID 中表现出较强的竞争性能，LDM-SR 优于 SR3，而 SR3具有更好的 IS。一个简单的图像回归模型可以获得最高的 PSNR 和 SSIM 评分; 然而，这些指标与人类感知不一致，并且模糊度优于不完全对齐的高频细节。此外，本文进行了用户研究，比较像素基线与 LDM-SR，在两张高分辨率图像之间显示低分辨率图像，并要求偏好。下表结果肯定了 LDM-SR 的良好性能。