【1】Language Model Beats Diffusion – Tokenizer is Key to Visual Generation

【URL】https://arxiv.org/abs/2310.05737v1

【Time】2023/10/09

一、研究领域

视频生成,视觉分词器

二、研究动机

提出一种 video tokenizer,旨在使用通用 token vocabulary 为视频和图像生成简洁且 expressive 的 token

三、方法与技术

Base Model:MAGVIT

(1)LOOKUP-FREE QUANTIZER(LFQ):通过减少emb维度增加词汇量,使用VQGAN类似的损失

(2)VISUAL TOKENIZER MODEL IMPROVEMENT:结合 C-ViViT 和 3D CNN 架构

Untitled

四、总结

期待开源

五、推荐相关阅读

MAGVIT: Masked Generative Video Transformer

【2】NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation

【URL】https://arxiv.org/abs/2303.12346v1

【Time】2023/03/22

一、研究领域

长视频生成,扩散模型

二、研究动机

希望提出一种简单而有效的视频生成策略,其能够直接在长视频(数千帧)上进行训练,以减少训练与推理之间的差距,并使并行生成所有片段成为可能。

三、方法与技术

(1)Temporal KLVAE (T-KLVAE):先视为独立图像做空间卷积,再添加时间卷积,训练目标和 image KLVAE 是相同的

(2)Mask Temporal Diffusion (MTD):分为全局扩散和局部扩散,其中全局扩散的条件是L个prompt,局部扩散的条件是L个prompt+第一帧和最后一帧,训练目标是L2扩散目标

(3)Diffusion over Diffusion Architecture:以 coarse-to-fine 的方式生成长视频,其中全局扩散负责生成关键帧,局部扩散负责完成中间帧

Untitled

四、总结

有人能告诉我全局扩散和局部扩散是共享参数的吗OwO

【3】Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

【URL】https://arxiv.org/abs/2304.08818v1

【Time】2023/04/18

一、研究领域

视频生成,扩散模型

二、研究动机

希望利用现成的预训练图像 LDM,通过训练时间对齐模型来生成高分辨率视频。

三、方法与技术

Base Model:预训练的 2D image LDM

(1)Turning Latent Image into Video Generators:在spatial layer后面插入时间层,保持主干参数不变,仅训练 temporal layer 的参数,在视频数据上微调。Encoder不做改变。

(2)Prediction Models for Long-Term Generation:引入时间二进制掩码,将模型训练为condition在上下文帧中的,以实现长视频生成,训练方式是CFG

(3)Temporal Interpolation for High Frame Rates:引入另一个模块对关键帧插值以提高帧率

(4)Temporal Fine-tuning of SR Models:级联架构训练超分模块以提高视频分辨率

Untitled

四、总结

Pipeline很完善,很直观,模块很多,比较复杂

【4】Visual Instruction Tuning

【URL】http://arxiv.org/abs/2304.08485

【Time】2023-04-17

一、研究领域

MLLM,指令微调

二、研究动机

(多模态)视觉指令微调

三、方法与技术

Base Model:LLaMA

用一个简单的投影层将CLIP图像特征连接到词嵌入空间一起训练,训练过程分为两阶段

(1)Pre-training for Feature Alignment:冻结LLM和visual encoder训练投影层,这个阶段可以理解为为冻结的LLM训练一个兼容的 visual tokenizer

(2)Fine-tuning End-to-End:只保持visual encoder权重冻结,并继续更新LLaVA中投影层和LLM的预训练权重

Untitled

四、总结

极简的 pipeline 极高的潜力

五、推荐相关阅读

Improved Baselines with Visual Instruction Tuning

【5】Improved Baselines with Visual Instruction Tuning

【URL】http://arxiv.org/abs/2310.03744

【Time】2023-10-05

一、研究领域

MLLM

二、研究动机

LLaVA升级(12边形战士)

三、方法与技术

(1)数据和数据格式修改

(2)线性投影层改为双层MLP

(3)添加学术导向的任务

(4)提高图像分辨率

以下是和SoTA的对比:

Untitled

四、总结

LLaVA v1.5 已经开源咧

五、推荐相关阅读

Visual Instruction Tuning