论文链接:

http://arxiv.org/abs/2211.09800

发布时间:2023.6.18


一、研究方向:

图像编辑,GPT3+Stable Diffusion预训练模型组合。

*注:记得之前分享过的csd用了instructPix2Pix,之后要分享的prompt2prompt也可以读一下,它是instructPix2Pix中很重要的一环节。

二、研究动机:

  1. 根据人类的instruction编辑图像(包括替换对象、风格修改、艺术化等)。
  2. 用GPT3和SD互补语言和图像的知识
  3. zero-shot generation,无需inversion,一次前向传播快速搞定

三、方法与技术:

  1. 生成配对数据集(三元组)

    • input caption来自LAION-Aesthetics图像标题

    • GPT-3(微调的)生成instruciotn和edited caption,

    • stable diffusion(结合prompt2prompt)生成input caption和edited caption的图像对

    • 于是生成的每个数据都是三元组(src img, instruction, edited img)

2. 用三元组数据监督训练扩散模型


其中CI是源图像, CT是指令,共同作为条件输入

结合cfg进行条件权重混合:


第一项无条件,第二项图像条件,第三项指令条件

四、实验结果:

  1. 图像编辑

2. CLIP Similarity:明显更高

3. 与baseline比较(SDEdit, T2L)

4. Ablation

数据清洗程度

不同cfg权重

五、主要贡献:

  1. 提出了一种结合两个大型预训练模型的方法
  2. 根据instruction编辑图像

评价:

  • pipeline非常简单,其实主要贡献是工程性的
  • 非常依赖于数据清洗
  • 能力受限于GPT3和promp-to-prompt

推荐相关阅读:

  • Collaborative Score Distillation for Consistent Visual Synthesis
  • Prompt-to-Prompt Image Editing with Cross Attention Control