InstructPix2Pix: 根据指令进行图像编辑

本文提出了一种根据人类指令编辑图像的方法:给定一个输入图像和一个告诉模型该做什么的语言指令,使模型按照这些指令来编辑图像。为了获得训练数据,本文结合了两个大型预训练模型的知识–语言模型(GPT-3)和扩散模型(Stable Diffusion)–来生成一个大型的图像编辑实例数据集。本文的条件扩散模型InstructPix2Pix在这些生成的数据上训练,并在推理时对真实图像和用户写的指令进行归纳。由于它不需要对每个样例进行微调或反演,因此模型可以在几秒钟内快速编辑图像。

来源:arxiv
论文题目:InstructPix2Pix: Learning to Follow Image Editing Instructions
作者:Tim Brooks, Aleksander Holynski, Alexei A. Efros
论文链接:https://arxiv.org/abs/2212.https://arxiv.org/abs/2211.09800
内容整理:王怡闻

引言

目前的条件扩散模型大多以一个文本prompt作为条件指导模型生成。这份论文与其他基于文本指导的图像编辑工作最大的不同在于,它可以直接以符合人类语言规律的文本形式指导模型要执行什么操作,而不是通过增减文本标签等方式。指令形式的一个好处在于,用户可以用自然的书面文本准确地告诉模型该做什么,指令精确和直观,允许用户轻松地对某些属性进行更改。下面举一个例子:图片本文提出的模型能够实现直观的图像编辑,可以遵循人类指令执行多种编辑,包括替换对象,改变图像的风格,改变环境,艺术媒介等。

方法

生成图像编辑数据集

为了获取训练数据,本文结合了两个大型的预训练模型:GPT-3和Stable Diffusion,以生成一个用于图像编辑任务的大型生成训练数据集。这两个大模型可以分别捕获关于语言和图像的知识,为跨模态的任务创建一些文本-图像成对的训练数据。本文生成数据集的步骤如下:

Step 1. 使用一个微调过的 GPT-3 来生成指令文本 Instruction 和按照指令编辑图像后的描述性文本 Edited Caption

图片

本文使用了微调过后的GPT-3,微调数据使用Human-written的700个数据:在LAION-Aesthetics V2 6.5+数据集上采样700个input captions,然后人工写出每条caption对应的instruction和edited caption。得益于GPT-3强大的语言生成能力,微调过后的模型可以生成明确且泛化性强的Instruction。下表展示了人工数据和GPT-3的生成数据:

图片

Step 2. 以Input Caption和Edited Caption作为输入,由Stable Diffusion和Prompt-to-Prompt一起生成图像对

图片

Prompt2Prompt的方法可以参考这篇论文:Prompt-to-Prompt Image Editing with Cross-Attention Control。此处使用Prompt2Prompt的原因在于:其他文本转图像的方法无法保证图像的一致性,在文本输入中即便是非常微小的差别都可能导致生成图像产生很大的不同,这不利于数据集的稳定性。而Prompt-to-Prompt方法强调了修改前后图片的一致性,即尽可能保证未被修改的属性前后保持相同,因而非常适合当前任务。对比如下图,输入文本为:“photograph of a girl riding a horse” 和 “photograph of a girl riding a dragon”:

图片

Step 3. 创建数据集如下

图片

InstructPix2Pix

本文模型参照Stable Diffusion,以预训练的Stable Diffusion checkpoint作为初始化权重,使用Latent Diffusion的训练方法,以上文的生成数据集作为训练数据进行训练。

InstructPix2Pix: 根据指令进行图像编辑
图片

效果

图片
图片
图片

消融实验

实验分析了数据集大小以及CLIP filter对生成质量的影响。

图片

局限性

方法限制于Stable Diffusion模型,且模型在计算物体的数量和空间推理(例如,”把它移到图像的左边”,”交换它们的位置”,或 “把两个杯子放在桌子上,一个放在椅子上”)方面有困难(这也是Prompt-to-Prompt方法的问题)。

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论