InstructPix2Pix - 每日一读[7.16]
论文链接:
http://arxiv.org/abs/2211.09800
发布时间:2023.6.18
一、研究方向:图像编辑,GPT3+Stable Diffusion预训练模型组合。
*注:记得之前分享过的csd用了instructPix2Pix,之后要分享的prompt2prompt也可以读一下,它是instructPix2Pix中很重要的一环节。
二、研究动机:
根据人类的instruction编辑图像(包括替换对象、风格修改、艺术化等)。
用GPT3和SD互补语言和图像的知识
zero-shot generation,无需inversion,一次前向传播快速搞定
三、方法与技术:
生成配对数据集(三元组)
input caption来自LAION-Aesthetics图像标题
GPT-3(微调的)生成instruciotn和edited caption,
stable diffusion(结合prompt2prompt)生成input caption和edited caption的图像对
于是生成的每个数据都是三元组(src img, instruction ...
DreamFusion - 每日一读[7.15]
论文链接:
http://arxiv.org/abs/2209.14988
发布时间:2022.9.29
一、研究方向:Zero-shot 的 text-to-3D合成 的经典之作
二、研究动机:
lift pretrained 2D generations to 3Ds. (当时还没有很好的方法来把预训练的2D生成模型用到3D生成任务上,再考虑到那时候diffusion和nerf都很火,dreamfusion成功地把它们结合起来了,效果在当时很优秀)
对标CLIP Loss,提出了SDS Loss(在一年后的今天,又出现了很多改进版的loss,例如之前讲的DDS,VSD,CSD)
三、方法与技术:没什么好说的,就是把2D Diffusion固定住,然后重建目标是一个nerf的一个视角渲染,recon loss的梯度传回3D场而不是用于训练2D模型,这样就把2D pretrained模型的信息蒸馏到了3D场里。
显而易见的pipeline:
四、实验结果:不重要,已经过去一年了。
五、主要贡献:SDS Loss
评价:
SDS是过去一年几乎所有基于pretrained d ...
Collaborative Score Distillation - 每日一读[7.14]
论文链接:
http://arxiv.org/abs/2307.04787
发布时间:2023.7.4
一、研究方向:跨模态的视觉生成任务,包括全景图像、视频和3D场景编辑,对标SDS Loss(可以结合我们之前讲解过的DDS和VSD进行比较)。
二、研究动机:
task:如何将预训练的文本到图像扩散模型的知识应用于二维图像之外的更复杂的高维视觉生成任务(全景图像、视频、3D),而无需使用特定于模态的训练数据修改扩散模型(Zero-shot)
insight:许多复杂的视觉数据,例如视频和 3D 场景,都被表示为一组受特定模态一致性约束的图像(例如时间一致性和视角一致性),但是普通的扩散模型生成结果是不具有这种一致性的
related work:SDS Loss,其实是一种3D object先验,并且尚未被用于其他模态
获得神秘启发:
使用 Stein 变分梯度下降 (SVGD) 建立 SDS 的泛化,其中多个样本共享从扩散模型中提取的知识,以实现样本间的一致性
结合Instruct-Pix2Pix来进行一致视觉编辑(指令引导的扩散模型,任务显而易见地包括三元组:src i ...
ProlificDreamer - 每日一读[7.13]
论文链接:
http://arxiv.org/abs/2305.16213
发布时间:2023.5.25
一、研究方向:提出新的text-to-3D蒸馏方案VSD Loss,对标DreamFusion的SDS Loss。实验结果相当炸裂,是text-to-3D生成模型领域的突破性工作。
二、研究动机:
经典的lift 2D to 3D动机:
利用预训练的扩散模型实现text-to-3D的生成任务。
2. 经典,怼SDS存在的问题:
过饱和、过平滑、低多样性(生成结果的模式单一)
3. 获得神秘启发:
不能像SDS那样单点优化
因为多个3D场景应当和一个提示对齐(多对一,而非一对一),所以把将3D场景视为满足一定先验分布的随机变量,而不是变量
维护一组3D参数作为粒子来表示这个基于给定文本提示的3D分布(后面说到用lora实现)
使用低至7.5的CFG分数(这样就不容易模式崩溃,更符合在分布中“采样”的思路,区别于SDS的100)
三、方法与技术:
回顾SDS Loss
2. 对服从文本提示y的3D分布建模,并且和扩散模型对齐:
3. 用一组θ表示粒子,推导出优化目标:
...
Delta Denoising Score - 每日一读[7.12]
论文链接:http://arxiv.org/abs/2304.07090
发布时间:2023-04-14
一、研究方向:
T2I图像编辑(zero-shot,text-only)
二、研究动机:
对标DreamFusion的SDS Loss,提出了一种新的优化目标称为DDS Loss用于2D图像编辑。可以认为DDS Loss是校正后的SDS Loss。(记住它们,之后的文章还会讲VSD Loss和CSD Loss)。
先怼SDS作为2D先验的缺点:
多样性差,模式单一
编辑结果模糊(因为是文本图像一对一优化)
然后得到神秘启发:
认为SDS包含一些不必要的梯度导致了上述模式崩溃
通过reference的图像-文本描述对,估计SDS引入的不良噪声梯度方向。
所以,指导target图像的编辑的时候用SDS Loss减掉它就好了
三、方法与技术:
分解SDS Loss
先回顾一下大家都很熟悉的SDS Loss(它本来是用来做3D生成任务的,但是其实也可以扩展到图像编辑任务):
作者认为其中包含了导致崩坏的梯度项,于是对其分解(为text项和bias项):
2. 通过去除b ...