Daily Trend [10-20]
【1】MAGVIT: Masked Generative Video Transformer【URL】http://arxiv.org/abs/2212.05199
【Time】2023-04-04
一、研究领域
视频生成、视觉分词器
二、研究动机
受到最近 DALL·E 等 generative image transformers 的成功的启发,希望通过利用 masked token modeling 和 multi-task learning 提出一种高效且有效的(多任务)视频生成模型。
三、方法与技术
Base Model 是 non-autoregressive transformers;分两个阶段训练MAGVIT:
(1)Spatial-Temporal Tokenization:目的是将video离散化为tokens。基于 image VQGAN 构建 video VQ autoencoder,特别设计为3D-VQ架构,以对时间动态建模。初始化使用2D-VQ的权重,训练用的损失是逐帧的image perceptual loss。
(2)Multi-Task Masked ...
Daily Trend [10-19]
【1】Language Model Beats Diffusion – Tokenizer is Key to Visual Generation【URL】https://arxiv.org/abs/2310.05737v1
【Time】2023/10/09
一、研究领域
视频生成,视觉分词器
二、研究动机
提出一种 video tokenizer,旨在使用通用 token vocabulary 为视频和图像生成简洁且 expressive 的 token
三、方法与技术
Base Model:MAGVIT
(1)LOOKUP-FREE QUANTIZER(LFQ):通过减少emb维度增加词汇量,使用VQGAN类似的损失
(2)VISUAL TOKENIZER MODEL IMPROVEMENT:结合 C-ViViT 和 3D CNN 架构
四、总结
期待开源
五、推荐相关阅读
MAGVIT: Masked Generative Video Transformer
【2】NUWA-XL: Diffusion over Diffusion for eXtremely ...
Daily Trend [10-18]
【1】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering【URL】http://arxiv.org/abs/2310.08528
【Time】2023-10-12
一、研究领域
动态场景,实时渲染
二、研究动机
高分辨率的实时动态场景渲染,并且保证高效率的训练和存储
三、方法与技术
(1)3D 高斯神经体素编码:使用多分辨率HexPlane voxel module来编码每个3D Gaussian的空间和时间信息,因为附近的高斯总是共享相似的变形,而远处的高斯分布之间的关系也不容忽视
(2)高斯变形计算:用一个紧凑的decoder layer和独立的MLP计算位移、旋转、缩放
(3)Optimization:静态初始化+变形联合优化(微调)
四、总结
直接看图,性能非常恐怖:
五、推荐相关阅读
DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation
【2】From CLIP to DINO: Visual Enco ...
Daily Trend [10-17]
【1】RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control【URL】http://arxiv.org/abs/2307.15818
【Time】2023-07-28
一、研究领域
Robotic Control, Vision-Language Model
二、研究动机
对web-scale数据训练的大型视觉语言模型进行微调,以直接充当可泛化和语义感知的robitic policies
三、方法与技术
(1)预训练VLM:Base Model 是 PaLI-X 和 PaLM-E
(2)将Action离散化为Token,将Robot数据转化为适合VLM模型的数据:方法和RT-1一致
(3)Co-fine-tuning:用 robotics data 和 original web data 共同微调VLM(按比率提高)
(4)实时推理
四、总结
最重要的是数据的混合和比例分配
【2】Learning Interactive Real-World Simulators【URL】http:/ ...
Daily Trend [10-16]
1【Title】AgentTuning: Enabling Generalized Agent Abilities for LLMs
【URL】https://openreview.net/forum?id=OqlmgmS4Wr
【Time】2023/10/13
一、研究领域
LLM、Agent
二、研究动机
提高LLM的代理能力(可泛化)而不损害LLM本身的语言能力。
三、方法与技术
构建指令数据集和混合微调。基座模型是Llama 2。
四、总结
代理能力(70B)齐平GPT-3.5
2 【Title】Flexible Diffusion Modeling of Long Videos
【URL】http://arxiv.org/abs/2205.11495
【Time】2022-12-15
一、研究领域
长视频生成、扩散模型
二、研究动机
在各种真实环境中生成长视频
三、方法与技术
以多帧集合为条件的多帧集合生成
四、总结
可以生成25分钟不降低质量的长视频(在数据集CARLA Town01 and MineRL上)
3 【Title】Learning ...
OmniObject3D - 每日一读[8.8]
论文链接:http://arxiv.org/abs/2301.07525
发布时间:2023-04-11
一、研究方向:3D数据集
二、研究动机:提出OmniObject3D,是一个包含大量高质量真实扫描 3D 对象的广泛语义数据集。(而非合成数据集)
包含6000个对象,190个日常类别
每个3D对象均通过2D和3D传感器采集,提供纹理网格、点云、多视图渲染图像和多个真实采集的视频
具有精确的形状和逼真的外观
三、方法与技术:
预定义类别列表(与几个著名的 2D 和 3D 数据集共享许多共同类别,例如,覆盖了 ImageNet 中的 85 个类别和 LVIS 中的 130 个类别)
收集和高质量扫描各类别物体,获得3D模型
根据3D模型,用blender渲染多视角图像,用Open3D工具箱采样多分辨率点云
用iPhone 12 Pro拍摄360°视频,然后用COMAP注释帧
四、实验:
Robust 3D Perception
Novel View Synthesis
single-scene
cross-scene
Neural Surface Reconst ...
pixelNeRF - 每日一读[8.7]
论文链接:http://arxiv.org/abs/2012.02190
发布时间:2021-05-30
一、研究方向:少视角合成,单视图重建
二、研究动机:issues:
NeRF需要许多输入视图和逐场景大量优化时间
传统少视角合成方法的相机姿态受限
传统方法需要3D监督或者mask
大多数现有方法在canonical space中运行
motivation:
少视角合成,跨场景泛化
PixelNeRF是完全前馈的,只需要相对的相机姿态
只需要image监督
PixelNeRF 在view space中运行,可以更好地重建未见的对象类别,并且不鼓励记忆训练集
三、方法与技术:
单视角合成:
图片先过卷积得到特征W,然后对于沿着具有视角方向d的目标摄像机射线的查询点x,通过投影和插值从特征体W中提取相应的图像特征。然后将该特征与空间坐标一起传递到 NeRF 网络 f 中。输出的 RGB 和密度值经过体积渲染并与目标像素值进行比较。坐标 x 和 d 位于输入视图的相机坐标系中。
2. 少视角合成(数量可变):
对于每个已知视角同上思路计算中间值Vi:
聚合每个Vi预测最 ...
DreamSparse - 每日一读[7.19]
论文链接:
http://arxiv.org/abs/2306.03414
发布时间:2023.6.16
一、研究方向:novel view synthesis, 单物体/场景级别的少视角, lift 2D to 3D
二、研究动机:
task:利用预训练的2D diffusion帮助少视角3D生成任务
novelty:不需要逐对象训练
insight:
需要为2D扩散模型引入3D先验,即多视角的聚合特征
需要保证生成的新视角与ref gt的identity一致性
三步走策略:
感知:用一种3D Geometry Module来聚合3D特征
guidance:提出了一种spatial guidance来使用聚合特征引导扩散模型,保证几何一致性
identity:提出了一种noise perturbation method,保证identity一致性
三、方法与技术:(input:一组上下文图像,output:新视角合成)
训练3D Geometry Module
单张图像逐点密度加权:ResNet主干提取语义特征&reshape成4维体积表 ...
Prompt-to-Prompt - 每日一读[7.18]
论文链接:
http://arxiv.org/abs/2208.01626
发布时间:2022.8.2
一、研究方向:text-driven image editing(任务包括局部编辑,全局编辑,单词语义效果编辑,都是text-only的)
二、研究动机:
task: 设计一种直观的prompt-to-prompt编辑框架,其中编辑仅由文本控制
2. insight: 在扩散过程中注入cross attention map, 通过修改交叉注意层中发生的像素到文本的交互, 实现图像编辑
三、方法与技术:
根据图像和文本计算attention map:
Q是图像feature,KV是文本embeddings,M是输出的attantion map
2. 通过编辑扩散过程的cross attention map来实现图像编辑
这里区分三种类型的编辑任务:
Word Swap(P =“a big red bicycle” -> P∗ =“a big red car”):直接把attention map替换成编辑目标的.
Adding a New ...
Prompt Diffusion - 每日一读[7.17]
论文链接:
http://arxiv.org/abs/2305.01115
发布时间:2023.5.1
一、研究方向:扩散模型的in-context learning,vision-language prompt,视觉任务集成
二、研究动机:
LLM的in-context learning发展得很好(特别是GPT系列展现出的涌现能力),所以也想应用到大规模视觉模型
设计有效的vision prompt非常困难
以前的工作大多数是针对下游任务做finetune,而不是根据上下文来学习
于是提出了一种新的模型架构“Prompt Diffusion”,可以在视觉语言提示下执行上下文学习,可以通用于不同视觉语言任务
直观看是这样的,这里聚合了6个不同任务以代表通用性(包括正向任务和逆向任务)
三、方法与技术:
定义一个通用的vision-language任务,格式是:
很直观展示了什么是in-context和vision prompt
2. 架构基于controlnet
这里需要注意的是条件的构造:
对于text encoder的输入,依然只是文本text
对于controlnet ...