InstructPix2Pix - 每日一读[7.16]
论文链接:
http://arxiv.org/abs/2211.09800
发布时间:2023.6.18
一、研究方向:
图像编辑,GPT3+Stable Diffusion预训练模型组合。
*注:记得之前分享过的csd用了instructPix2Pix,之后要分享的prompt2prompt也可以读一下,它是instructPix2Pix中很重要的一环节。
二、研究动机:
- 根据人类的instruction编辑图像(包括替换对象、风格修改、艺术化等)。
- 用GPT3和SD互补语言和图像的知识
- zero-shot generation,无需inversion,一次前向传播快速搞定
三、方法与技术:
生成配对数据集(三元组)
input caption来自LAION-Aesthetics图像标题
GPT-3(微调的)生成instruciotn和edited caption,
stable diffusion(结合prompt2prompt)生成input caption和edited caption的图像对
于是生成的每个数据都是三元组(src img, instruction, edited img)
2. 用三元组数据监督训练扩散模型
其中CI是源图像, CT是指令,共同作为条件输入
结合cfg进行条件权重混合:
第一项无条件,第二项图像条件,第三项指令条件
四、实验结果:
- 图像编辑
2. CLIP Similarity:明显更高
3. 与baseline比较(SDEdit, T2L)
4. Ablation
数据清洗程度
不同cfg权重
五、主要贡献:
- 提出了一种结合两个大型预训练模型的方法
- 根据instruction编辑图像
评价:
- pipeline非常简单,其实主要贡献是工程性的
- 非常依赖于数据清洗
- 能力受限于GPT3和promp-to-prompt
推荐相关阅读:
- Collaborative Score Distillation for Consistent Visual Synthesis
- Prompt-to-Prompt Image Editing with Cross Attention Control
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.