论文链接:

http://arxiv.org/abs/2305.01115

发布时间:2023.5.1


一、研究方向:

扩散模型的in-context learning,vision-language prompt,视觉任务集成

二、研究动机:

  1. LLM的in-context learning发展得很好(特别是GPT系列展现出的涌现能力),所以也想应用到大规模视觉模型
  2. 设计有效的vision prompt非常困难
  3. 以前的工作大多数是针对下游任务做finetune,而不是根据上下文来学习
  4. 于是提出了一种新的模型架构“Prompt Diffusion”,可以在视觉语言提示下执行上下文学习,可以通用于不同视觉语言任务


直观看是这样的,这里聚合了6个不同任务以代表通用性(包括正向任务和逆向任务)

三、方法与技术:

  1. 定义一个通用的vision-language任务,格式是:


很直观展示了什么是in-context和vision prompt

2. 架构基于controlnet

这里需要注意的是条件的构造:

  • 对于text encoder的输入,依然只是文本text
  • 对于controlnet的输入,不再只是单张query image,而是concat并投影到合适维度后的example image pairs和query image的加和(卷积堆叠)

3. 数据集:包含大约310000个图像标题对

4. 训练方法:6各任务上联合训练,cfg

训练目标构造很直白:

 正向任务

逆向任务

四、实验结果:

  1. 6个任务的定性评估

2. 和task-specific模型比较:

3. 新任务(3个)上的泛化

4. 图像编辑

5. failure case

五、主要贡献:

  1. 提出了一种novel的vision-language prompt来集成各种视觉语言任务
  2. Prompt Diffusion 模型是第一个diffusion-based多功能视觉语言基础模型,能够进行上下文学习
  3. 高质量,泛化性

评价:

  • 提出了一种非常好的vision-language任务新范式,但是条件的构造太弱了
  • 依赖于数据量和数据质量,非常受限于计算资源

推荐相关阅读:

  • SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations