Prompt Diffusion - 每日一读[7.17]
论文链接:
http://arxiv.org/abs/2305.01115
发布时间:2023.5.1
一、研究方向:
扩散模型的in-context learning,vision-language prompt,视觉任务集成
二、研究动机:
- LLM的in-context learning发展得很好(特别是GPT系列展现出的涌现能力),所以也想应用到大规模视觉模型
- 设计有效的vision prompt非常困难
- 以前的工作大多数是针对下游任务做finetune,而不是根据上下文来学习
- 于是提出了一种新的模型架构“Prompt Diffusion”,可以在视觉语言提示下执行上下文学习,可以通用于不同视觉语言任务
直观看是这样的,这里聚合了6个不同任务以代表通用性(包括正向任务和逆向任务)
三、方法与技术:
- 定义一个通用的vision-language任务,格式是:
很直观展示了什么是in-context和vision prompt
2. 架构基于controlnet
这里需要注意的是条件的构造:
- 对于text encoder的输入,依然只是文本text
- 对于controlnet的输入,不再只是单张query image,而是concat并投影到合适维度后的example image pairs和query image的加和(卷积堆叠)
3. 数据集:包含大约310000个图像标题对
4. 训练方法:6各任务上联合训练,cfg
训练目标构造很直白:
正向任务
逆向任务
四、实验结果:
- 6个任务的定性评估
2. 和task-specific模型比较:
3. 新任务(3个)上的泛化
4. 图像编辑
5. failure case
五、主要贡献:
- 提出了一种novel的vision-language prompt来集成各种视觉语言任务
- Prompt Diffusion 模型是第一个diffusion-based多功能视觉语言基础模型,能够进行上下文学习
- 高质量,泛化性
评价:
- 提出了一种非常好的vision-language任务新范式,但是条件的构造太弱了
- 依赖于数据量和数据质量,非常受限于计算资源
推荐相关阅读:
- SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.