InstructPix2Pix: 用于图像编辑的动态扩散模型 | CVPR 2023

这篇论文提出了一种协作扩散模型,无需重新训练已有的单模态扩散模型便可实现多模态的人脸合成与编辑。具体而言,作者提出了动态扩散器,这个扩散器通过预测每个预训练的单模态模型的空间-时间影响函数,自适应地模拟多模态去噪步骤。这个方法在图像质量和条件一致性方面表现出优越性。

论文题目:InstructPix2Pix: Learning to Follow Image Editing Instructions
作者:Ziqi Huang,Kelvin C.K.Chan,Yuming Jiang,Ziwei Liu
论文链接:https://arxiv.org/pdf/2304.10530
来源:CVPR 2023
内容整理:王怡闻

引言

目前扩散模型是深度生成模型的SOTA。尽管扩散模型在生成式任务上表现出众,但现有的模型主要集中于单模控制,即,扩散过程仅由一种条件方式驱动,如Stable Diffusion、Imagen等模型都是由文本驱动的。为了激发使用者的创造力,人们更希望可以用多种条件方式来驱动模型,例如在生成或编辑人脸时,用户在画出人脸的形状(mask-driven)的同时描述该人的年龄(text-driven),模型可以按照用户的输入生成图像。作者观察到由不同模式驱动的扩散模型在潜在去噪步骤方面具有内在的互补性,在此基础上可以建立双边联系。在这个基础上,作者提出了动态扩散器,这个扩散器通过预测每个预训练的单模态模型的空间-时间影响函数,自适应地模拟多模态去噪步骤。这种协作扩散模型无需重新训练已有的单模态扩散模型便可实现多模态的人脸合成与编辑,并且在图像质量和条件一致性方面表现出优越性。

InstructPix2Pix: 用于图像编辑的动态扩散模型 | CVPR 2023

协作扩散

本文框架的核心是动态扩散器,它通过预测空间-时间影响函数来决定每个合作者的贡献程度。

多模态协作合成

1.问题构建

InstructPix2Pix: 用于图像编辑的动态扩散模型 | CVPR 2023

2. 动态扩散器

InstructPix2Pix: 用于图像编辑的动态扩散模型 | CVPR 2023

下图为动态扩散器的管线图:

InstructPix2Pix: 用于图像编辑的动态扩散模型 | CVPR 2023

3. 多模态协作

得到了每个模型的在当前时间步的影响程度之后,我们将每个模型在这一步的预测结果与它对应的影响程度做点乘操作,最后将所有值相加,便是当前时间步的最终预测结果:

InstructPix2Pix: 用于图像编辑的动态扩散模型 | CVPR 2023

动态扩散器的训练过程可以看下面这张图:

InstructPix2Pix: 用于图像编辑的动态扩散模型 | CVPR 2023

具体而言就是拿上个式子得到的最终预测结果去拟合标准高斯分布,不断更新动态模拟器的参数。

结合整个方法的管线图可以更清晰的说明协作扩散模型的采样流程:第m个模型在第t个时间步接收到输入的带噪图像xt和这个模型的驱动条件cm后分两步走,第一步就是按照正常的流程采样得到这一步去噪的结果;第二步就是通过动态模拟器得到这个模型当前的影响程度,以上两步的结果做点乘。然后将所有模型的输出结果加到一起,就构成了当前时间步下协作扩散模型的预测结果。

InstructPix2Pix: 用于图像编辑的动态扩散模型 | CVPR 2023

多模态协作编辑

流程和上一块的人脸合成差不多,值得注意的是做人脸合成时训练的动态扩散器可以直接拿来用,不需要重新训练。

实验

数据集

主要用了CelebA-HQ、CelebA-Dialog和CelebAMask-HQ数据集。CelebA-HQ是一个包含30000张人脸的图像数据集,Dialog为这个人脸数据集里的每张人脸提供了详细的文本描述,Mask则是对HQ中的每个人脸提供了手工标注的人脸形状掩码(mask)。

对比试验

主要和TediGAN、Composable Diffusion这两个方法进行对比,量化的评估标准有:FID(评价生成图片是否接近真实图片,越低越接近)、CLIP Score(判断文本和图像相似度,越高越相似)、Mask Accuracy(这个是用CelebAMask-HQ提供的网络来评估的,也是越高越好)和User Study(请了25个人来做主观判断,在每次生成中给表现最好的那个模型投票)。下面的图是量化标准的对比结果。前三个量化标准:

InstructPix2Pix: 用于图像编辑的动态扩散模型 | CVPR 2023

最后一个User Study:

InstructPix2Pix: 用于图像编辑的动态扩散模型 | CVPR 2023

然后展示了一下这个方法的人脸生成效果。

InstructPix2Pix: 用于图像编辑的动态扩散模型 | CVPR 2023

人脸编辑效果:

InstructPix2Pix: 用于图像编辑的动态扩散模型 | CVPR 2023

消融实验

作者可视化了影响函数的结果,借此来探讨影响函数的时间-空间作用。

InstructPix2Pix: 用于图像编辑的动态扩散模型 | CVPR 2023

1. 影响函数的空间变化

可以看到Mask条件更多影响了人脸的轮廓,比如发型、脸型、眼睛等。而Text条件更多影响了人的肤质纹理,因为这些特征能够更好地被文字表述出来,比如年龄。

2. 影响函数的时域变化

从时间角度来看,Mask条件在前期的影响更强,Text条件在后期影响更强。

3. 量化评估

为了证明影响函数在时间和空间角度都很重要,作者同样用FID、CLIP Score、Mask Accuracy来评估实验结果。

InstructPix2Pix: 用于图像编辑的动态扩散模型 | CVPR 2023

结论

这篇文章提出了一种不同模态的扩散模型协作采样的策略。不需要重训或者微调扩散模型,不过需要训练一个UNet(动态扩散器)。本文主要结合了Text-based和Mask-based两个模态做人脸合成和人脸编辑任务,并且在图像质量和条件一致性方面表现出优越性。

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论