EAGLES：轻量级编码的高效加速3D高斯

最近，3DGS已经在新视角合成领域取得了巨大关注。它解决了NeRF训练时间过长、渲染速度过慢的问题。通过快速、可微的三维高斯光栅化，3DGS实现了实时渲染和加速训练。然而，由于在每个场景的点云中都存在着数百万的高斯基元，基于3DGS的方法普遍需要大量的存储资源。我们提出了一种使用量化嵌入的技术，可观地减少了每个点的存储空间；以及一种由粗糙到细致的训练策略，实现了对高斯点云更快、更稳定的优化。我们的方法还设计了一个剪枝阶段，使得场景表示需要更少的高斯，从而加快了训练和渲染的速度。我们在保留重建效果的同时减少了约一个数量级的存储需求。我们在各种数据集上验证了我们方法的有效性，在保证了视觉质量的同时减少了10-20倍的存储需求和更快的训练、推理速度。

题目：EAGLES: Efficient Accelerated 3D Gaussians with Lightweight EncodingS
作者：Sharath Girish, Kamal Gupta & Abhinav Shrivastava
来源：ECCV 2024
文章链接：https://link.springer.com/chapter/10.1007/978-3-031-73036-8_4
整理：李巴特

引言

3DGS通过其对高斯点云进行优化的方式，实现了较快的训练速度和实时渲染，成为了新视角合成领域的热点。尽管三维高斯泼溅在新视角合成方面具有诸多优势，但其代价是高昂的内存消耗。每个高分辨率场景需要数百万高斯点以实现高质量重建，每个点包含位置、颜色、旋转、不透明度和缩放等多个属性，导致单场景存储需求超过1GB。相较于传统NeRF方法，其训练和渲染时的GPU显存需求也显著增加，高分辨率场景需要近20GB显存。这使得该方法在内存受限的图形系统或低带宽应用中实用性受限。

本文方法旨在降低存储和运行时内存成本，同时提升训练与渲染速度，并保持与当前最优三维高斯泼溅相当的视角合成质量。通过分析发现，由球谐系数表示的颜色属性和协方差矩阵表示的旋转属性占据总内存成本的80%以上。我们提出采用潜在量化框架压缩颜色和旋转属性，显著降低单个高斯点的内存占用。同时量化不透明度系数以优化训练过程，减少新视角重建中的伪影。此外，提出由粗到精的训练策略以提升训练稳定性和收敛速度，并获得更优重建效果。最后，针对频繁点云增密（通过克隆和分裂）产生的冗余高斯点，设计剪枝阶段识别对整体重建影响最小的点，从而降低场景表示的内存消耗，同时通过加速光栅化提升渲染和训练速度。

本文主要贡献包括：

提出通过逐点属性量化压缩三维高斯点云的简洁有效方法，显著降低存储内存。
通过量化不透明度系数和渐进式训练策略优化高斯点，结合剪枝机制控制点云数量。
对方法各组件进行消融实验验证其有效性。实验表明，该方法在多个数据集上达到与三维高斯泼溅相当的质量，同时具有更快的速度和更高的效率。

方法

EAGLES：轻量级编码的高效加速3D高斯 | ECCV 2024 — 图1：提出的方法：1）我们量化了潜在属性以减少存储的消耗。2）使用一个由粗到精的分辨率调度策略渐进地训练，得到更高质量的重建。3）引入一个剪枝步骤，以减少高斯的数量来提升训练和渲染的速度。

特征量化

对于每个高斯点，其包括如下需要存储的信息：位置向量 p∈R³，缩放参数 s∈R³，旋转四元向量 r∈R⁴，不透明度 o∈R，以及球谐参数 c∈R^d，其中 dd 是球谐参数的数量，d=3×f²，f 为谐波度数。

因此，对于一个4度的高斯，球谐参数占了全部属性的80%以上。

而3DGS中一个场景通常需要数百万个高斯球，如果把一百万个高斯球的所有属性都用32位浮点数存储，那么这一百万个高斯球就将消耗236MB左右的空间。为了减少内存消耗，我们提出了如图1所示的量化方式。

潜在特征就这样像3DGS一样，被端到端地训练。在训练后，我们将q舍入到最近的整数，并使用熵编码对潜在特征和解码器进行压缩。虽然特征A = {p,s,r,c,o}中的每个向量都可以被量化，但是我们不对SH系数的基带颜色参数、缩放参数和位置向量进行编码，因为它们对于初始化十分敏感，若对它们进行可靠的压缩需要引入更多有着巨大性能开销的方法。

这里着重提出对不透明度的量化，这不仅可以减少存储开销，也可以减少伪影的数量。在图2中，我们可以看到大多数不透明度值趋于0和1，这是因为梯度的值太大了。对于负梯度的高斯，它的透明度会趋于0，原始3DGS会将其删除，而正梯度的高斯的不透明度会趋于1，这将使其不被删除从而成为伪影。量化相当于加上了一个软正则化，使得不透明度从一个值变到另一个值时需要更高的梯度，限制了不透明度过于轻易的饱和。

渐进式训练

标准的3DGS从始至终都是用全分辨率的视图进行训练，导致3DGS一开始就要拟合精细的特征。而通过SfM初始化的参数通常是粗糙的，这种过程可能会使得优化陷入局部最优，从而导致训练中无法消除的伪影。因此我们提出一种由粗到精的训练策略，随训练过程的推进逐步增加渲染图象的分辨率。这个方法可以引导优化更好地进行，且在训练初期时会表示更粗糙的场景、渲染更低分辨率的图像，这可以缩减训练所需的时间。

影响力剪枝

高斯的克隆和分裂每100迭代发生一次，让大量高斯由于超过梯度阈值而发生克隆与分裂，从而产生数量过于庞大的高斯。然而，有的高斯即使有很高的不透明度，但由于遮挡关系的存在，这些点可能仍不会对光栅化过程产生影响。此外，高斯点也可能具有较小的尺寸，导致其影响的像素非常少。为了找出重建过程中最重要的高斯，我们定义了一个影响力指标：对于第i个高斯，它被渲染在像素p上，我们定义它在像素上和全图的影响力为：

如图3所示，在剪枝前后的渲染结果基本是一样的。而影响力得分在光栅化过程中会直接计算出来，无额外计算开销。具体实现中，我们为每次训练迭代计算高斯点的权重向量，并在预设的 N 次迭代（作为超参数）中累计全局权重值，以全面评估高斯点在所有训练视角下的影响力。累计完成后，系统筛选权重值最低的特定比例高斯点进行剪枝，并继续优化剩余高斯点。

实验

对比实验

我们的方法的存储体积减少15倍、训练与渲染速度显著提升的同时，保持与3D高斯泼溅（3D-GS）相当的重建质量，部分场景PSNR更优，且有效减少边缘伪影。相比NeRF类方法（如Mip-NeRF360），存储和渲染效率提升超15倍，训练时间大幅缩短，并在多数数据集上实现更优重建。该方法兼顾轻量化与实时性，为内存受限场景提供高效三维重建方案。

消融实验

通过对方法的消融实验，我们验证了每个模块的有效性。首先，我们引入对颜色、旋转和不透明度的量化。我们在存储空间上实现了显著的下降，并只在重建质量中有很小的下降。量化的数据部分由220MB, 452MB, 1046MB下降到了6MB, 12MB, 28MB。

随后我们将渐进式训练以余弦策略增加渲染分辨率的方式加入训练。我们减少了伪影的数量，并增加了PSNR。当点云增密间隔设为175时，高斯点数量减少但重建质量无损（表3倒数第二行），超过此阈值则质量骤降。剪枝阶段进一步精简高斯点数量，在保持PSNR的前提下降低存储、加速训练并提升渲染帧率，仅轻微引入少量伪影。

为验证渐进式训练的效果，我们在卡车场景中测试不同渲染图缩放比例对模型性能的影响，如图6所示。实验表明：当缩放比例降至0.3时，场景所需高斯点数量减少且PSNR无损失；若进一步降低，则PSNR随存储压缩显著下降。同时，较小缩放比例可加速训练迭代（图6b），例如缩放比例为0.3时，单次迭代时间缩短且PSNR保持稳定。

渐进式缩放的变体

我们对比了不同滤波策略在渐进式训练中的效果：均值滤波、高斯滤波、标准下采样及无渐进训练。与无过滤策略相比，其他方法均能减少高斯点数量，降低内存占用、缩短训练时间并提升渲染帧率，且PSNR几乎无损失。标准下采样（初始缩放0.3，逐步恢复至原分辨率）在训练速度上最优，15×15大核高斯滤波虽效率更高，但会导致PSNR明显下降。

训练和渲染的存储消耗

我们测量了我们的方法和原始3DGS在训练和渲染中使用的显存的峰值，如表5所示。尽管量化模块需在训练前将潜在变量解码为浮点值，单个高斯点的运行时内存未直接减少，但通过渐进式训练与剪枝机制，总高斯点数量大幅下降，使训练/渲染的整体显存需求显著降低。

结论

本研究提出了一种简洁而高效的三维重建与新视角合成方法。基于三维高斯泼溅技术的开创性研究，我们通过三大核心改进实现了重大突破：单场景存储需求降低10-20倍，同时降低训练成本、加速推理过程，并保持与现有技术相当的重建质量。具体创新包括：1）基于逐点属性量化的压缩框架；2）加速训练并提升重建效果的渐进式训练策略；3）精简场景表征点云规模的动态剪枝机制。通过系统的定量与定性实验验证，该方法为三维场景建模提供了高效、轻量化的解决方案，具有重要的学术价值与应用潜力。