微软和清华大学推出Distilled Decoding:在自回归模型中加速图像生成而无质量损失的新方法

自回归 (AR) 模型改变了图像生成领域,为生成高质量视觉效果树立了新标杆。这些模型将图像创建过程分解为连续步骤,每个标记都基于先前的标记生成,从而创建具有出色真实感和连贯性的输出。研究人员已广泛采用 AR 技术用于计算机视觉、游戏和数字内容创建应用。然而,AR 模型的潜力往往受到其固有效率低下的限制,尤其是其缓慢的生成过程,这仍然是实时应用的一个重大障碍。

在众多问题中,AR 模型面临的一个关键问题是速度。逐个标记生成过程本质上是连续的,这意味着每个新标记都必须等待其前一个标记完成。这种方法限制了可扩展性,并导致图像生成任务期间的高延迟。例如,使用 LlamaGen 等传统 AR 模型生成 256×256 图像需要 256 个步骤,在现代 GPU 上大约需要五秒钟。这样的延迟阻碍了它们在需要即时结果的应用程序中部署。此外,虽然 AR 模型在保持输出保真度方面表现出色,但它们难以满足大规模实施中对速度和质量日益增长的需求。

为了加速 AR 模型,人们尝试了各种方法,例如同时预测多个 token 或在生成过程中采用掩码策略。这些方法旨在减少所需的步骤,但通常会损害生成图像的质量。例如,在多 token 生成技术中,token 之间条件独立的假设会引入伪影,从而破坏输出的凝聚力。同样,基于掩码的方法允许通过训练模型根据其他 token 预测特定 token 来更快地生成,但当生成步骤大幅减少时,它们的有效性会降低。这些限制凸显了对新方法来提高 AR 模型效率的需求。

清华大学和微软研究院的研究人员针对这些挑战提出了解决方案:Distilled Decoding(DD)。该方法基于流匹配,即一种将高斯噪声与预训练 AR 模型的输出分布联系起来的确定性映射。与传统方法不同,DD 不需要访问 AR 模型的原始训练数据,因此更适合部署。研究表明,DD 可以将生成过程从数百步减少到一两步,同时保持输出质量。例如,在 ImageNet-256 上,DD 使 VAR 模型的速度提高了 6.3 倍,使 LlamaGen 的速度提高了惊人的 217.8 倍,将生成步骤从 256 步减少到仅一步。

DD 的技术基础在于它能够为 token 生成创建确定性轨迹。使用流匹配,DD 将噪声输入映射到 token,以使其分布与预训练的 AR 模型保持一致。在训练期间,映射被提炼为轻量级网络,该网络可以直接从噪声输入中预测最终数据序列。此过程可确保更快的生成速度,并通过在需要时允许中间步骤来提供平衡速度和质量的灵活性。与现有方法不同,DD 消除了速度和保真度之间的权衡,从而实现了跨不同任务的可扩展实现。

微软和清华大学推出Distilled Decoding:在自回归模型中加速图像生成而无质量损失的新方法

在实验中,DD 凸显了其优于传统方法的优势。例如,使用 VAR-d16 模型,DD 实现了一步生成,FID 得分从 4.19 提高到 9.96,尽管速度提高了 6.3 倍,但质量下降却微乎其微。对于 LlamaGen 模型,将步骤从 256 减少到 1 可使 FID 得分达到 11.35,而原始模型的 FID 得分为 4.11,速度提高了 217.8 倍。DD在文本转图像任务中表现出了类似的效率,将生成步骤从 256 减少到 2,同时保持了 28.95 和 25.70 的可比 FID 得分。结果强调了 DD 能够大幅提高速度而不会显著降低图像质量,这是基线方法无法比拟的壮举。

微软和清华大学推出Distilled Decoding:在自回归模型中加速图像生成而无质量损失的新方法

关于 DD 的研究有几个关键结论:

  • DD 将生成步骤减少了几个数量级,生成速度比传统 AR 模型快 217.8 倍。
  • 尽管进程加快,DD 仍保持可接受的质量水平,FID 分数增幅仍在可控范围内。
  • DD 在不同的 AR 模型(包括 VAR 和 LlamaGen)中表现出了一致的性能,无论它们的标记序列定义或模型大小如何。
  • 该方法允许用户根据自己的需求选择一步、两步或多步生成路径来平衡质量和速度。
  • 该方法无需原始AR模型训练数据,使其在缺乏此类数据的场景中具有实际应用的可行性。
  • 由于其高效的提炼方法,DD 可能会影响其他领域,例如文本到图像合成、语言建模和图像生成。
微软和清华大学推出Distilled Decoding:在自回归模型中加速图像生成而无质量损失的新方法

总之,随着 Distilled Decoding 的引入,研究人员利用流匹配和确定性映射成功解决了长期困扰 AR 生成过程的速度与质量之间的权衡问题。该方法通过大幅减少步骤来加速图像合成,并保持输出的保真度和可扩展性。Distilled Decoding 凭借其强大的性能、适应性和实际部署优势,在 AR 模型的实时应用方面开辟了新领域。它为生成建模的进一步创新奠定了基础。

论文地址:https://arxiv.org/abs/2412.17153

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/54983.html

(0)

相关推荐

发表回复

登录后才能评论