扩散模型已成为一个重要的生成式 AI 框架,在图像合成、视频生成、文本到图像转换和分子设计等任务中表现出色。这些模型通过两个随机过程发挥作用:一个是逐渐向数据添加噪声并将其转换为高斯噪声的正向过程,另一个是通过学习消除噪声来重建样本的反向过程。关键公式包括去噪扩散概率模型 (DDPM)、基于分数的生成模型 (SGM) 和基于分数的随机微分方程 (SDE)。DDPM 采用马尔可夫链进行逐步去噪,而 SGM 估计分数函数以使用朗之万动力学指导采样。分数 SDE 将这些技术扩展到连续时间扩散。鉴于计算成本高昂,最近的研究重点是使用 Kullback-Leibler 散度、总变分和 Wasserstein 距离等指标来优化收敛速度,旨在减少对数据维数的依赖。
最近的研究试图通过解决数据维度的指数依赖性来提高扩散模型的效率。初步研究表明,收敛速度与维度的关系很差,这使得大规模应用具有挑战性。为了解决这个问题,较新的方法假设 L2 精确的分数估计、平滑属性和有界矩来提高性能。欠阻尼朗之万动力学和基于 Hessian 的加速采样器等技术已证明维度上的多项式缩放,从而减轻了计算负担。其他方法利用常微分方程 (ODE) 来改进总变分和 Wasserstein 收敛速度。此外,对低维子空间的研究表明,在结构化假设下效率有所提高。这些进步大大提高了扩散模型在实际应用中的实用性。
汉堡大学数学、计算机科学和自然科学系的研究人员探索了稀疏性这一成熟的统计概念如何提高扩散模型的效率。他们的理论分析表明,应用 ℓ1 正则化通过限制输入维数的影响来降低计算复杂度,从而提高 s^2/tau 的收敛速度,其中 s<<d,而不是传统的 d^2/tau。对图像数据集进行的经验实验证实了这些理论预测,表明稀疏性可以提高样本质量并防止过度平滑。该研究推进了扩散模型优化,通过统计正则化技术提供了一种计算效率更高的方法。
该研究解释了分数匹配和离散时间扩散过程。分数匹配是一种用于估计概率分布梯度的技术,这对于生成模型至关重要。神经网络经过训练可以近似该梯度,从而可以从所需分布中进行采样。扩散过程逐渐向数据添加噪声,从而创建一系列变量。逆过程使用学习到的梯度重建数据,通常通过朗之万动力学。正则化分数匹配,特别是在稀疏性约束的情况下,可以提高效率。所提出的方法加快了扩散模型的收敛速度,将复杂性从数据维度的平方降低到更小的值。
该研究探讨了正则化在扩散模型中的影响,重点关注数学证明和实证评估。它介绍了最小化反向步骤误差和优化调整参数的技术,从而提高了采样过程的效率。使用三维高斯数据的受控实验表明,正则化增强了生成样本的结构和焦点。同样,对手写数字数据集的测试表明,传统方法难以应对较少的采样步骤,而正则化方法即使减少计算工作量也能始终如一地产生高质量的图像。
对 fashion-related数据集的进一步评估显示,标准分数匹配会产生过度平滑和不平衡的输出结果,而正则化方法则能获得更真实、分布更均匀的结果。这项研究强调,正则化可以将输入维度的依赖性转移到较小的内在维度,从而降低计算复杂性,使扩散模型更加高效。除了应用稀疏性诱导技术外,其他形式的正则化也能进一步提高性能。研究结果表明,结合稀疏性原则可以显著改善扩散模型,使其在计算上可行,同时保持高质量的输出。
论文地址:https://arxiv.org/abs/2502.09151
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/56018.html