Daily Trend [01-08]
【1】VideoPoet: A Large Language Model for Zero-Shot Video Generation【URL】http://arxiv.org/abs/2312.14125
【Time】2023-12-21
一、研究领域视频生成,预训练大模型,MLLM
二、研究动机研究一种利用大语言模型进行视频生成的有效方法。希望该模型可用作多功能多任务视频生成模型,例如文本到视频、图像到视频、视频编辑和视频到视频风格化。
三、方法与技术Pipeline Design(1) modality-specific tokenizers:将输入数据(即图像像素、视频帧和音频波形)映射到统一词汇表中的离散标记。
(2) a language model backbone:接受图像、视频和音频以及文本 tokens 作为输入,并负责生成多任务和多模式建模。具体而言,VideoPoet 以文本嵌入、视觉标记和音频标记为条件,并自回归预测视觉和音频标记。
(3) a super-resolution module:超分辨率模块负责提高视频输出的分辨率,同时细化视觉细节以获得更高的 ...
Daily Trend [12-15]
【1】MVDream: Multi-view Diffusion for 3D Generation【URL】http://arxiv.org/abs/2308.16512
【Time】2023-08-31
一、研究领域3D 生成
二、研究动机提升分数蒸馏方法(利用 pretrained 2D diffusion 生成 3D assets)的 3D 一致性,克服 Multi-face Janus 问题(左)和 Content Drifting 问题(右):
左:“A bald eagle carved out of wood”,鹰有两张脸。右:“a DSLR photo of a plate of fried chicken and waffles with maple syrup on them”,鸡肉逐渐变成了华夫饼。
作者首先分析了最近的 related works(分别在3D和video生成领域),提出两个假设:
(1)即使是完美的相机条件模型也不足以解决问题,不同视图中的内容仍然可能不匹配。(例如,一只鹰可能会从前视图看向前方,同时从后视图看向右侧,其中只有它的身体符合相机 ...
Daily Trend [12-12]
【1】Sequential Modeling Enables Scalable Learning for Large Vision Models【URL】http://arxiv.org/abs/2312.00785
【Time】2023-12-01
一、研究领域Large Vison Model
二、研究动机提出一种纯视觉的顺序建模方法,在不使用任何语言数据的情况下学习大型视觉模型(LVM)。理由是视觉能力不依赖于语言(这一点也体现于动物世界中):
Large language models (LLMs) such as GPT [11] and LLaMA [80] have taken the world by storm. What would it take to build a Large Vision Model (LVM)? From the animal world, we know that visual competences are not dependent on language. In particular, many experiments have ...
Daily Trend [12-04]
【1】Think before you speak: Training Language Models With Pause Tokens【URL】http://arxiv.org/abs/2310.02226
【Time】2023-10-03
一、研究领域
NLP,延迟推理
二、研究动机
现有的 LM 框架中,生成第 K+1 个 token 总是操作看到的前 K 个 token(而不会更多),相反,作者希望花费超过 K 次操作来生成下一个 token,因此,作者提出通过向输入附加 M 个虚拟 token 来综合增加输入序列长度,从而将模型的下一个响应延迟 M 个输入 token。
In the current paradigm of language models, we compute exactly K embeddings v1, . . . vK in each layer, before generating the (K + 1)th token, pK+1. Our premise is that this limit of K operations is an ar ...
Daily Trend [11-29]
【1】Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets【URL】https://arxiv.org/abs/2311.15127
【Time】11-25
一、研究领域
video generation
二、研究动机
遵循 stable diffusion 的范式训练高分辨率的视频合成模型。
三、方法与技术
训练过程分三个阶段:
(1)Stage I: Image Pretaining. 利用预训练的 stable diffusion 2.1 来初始化 spatial weights。作者比较了没初始化的训练结果,证明权重初始化可以提高 prompt alignment, quality, aggregated 这三个指标。
(2)Stage II: Curating a Video Pretraining Dataset. 清洗 LVD-10M 数据集得到一个四倍小的数据集LVD-10M-F。作者比较了没清洗的数据集上的训练结果,证明 LVD-10M-F 可以提高 prompt ...
Daily Trend [11-24]
【1】Vision Transformers Need Registers【URL】http://arxiv.org/abs/2309.16588
【Time】2023-09-28
一、研究领域
Self-surpervised ViT Networks,机器学习解释
二、研究动机
作者注意到许多 modern vision transformers 的注意力特征图中存在一些神秘的 artifacts(唯独除了 DINO 模型),特别是 DINO v2 也出现了类似的现象。于是这项工作中着手于更好地理解这种现象并开发检测这些 artifacts 的方法。
“In this paper, we identify and characterize artifacts in feature maps of both supervised and self-supervised ViT networks.”
Illustration of artifacts observed in the attention maps of modern vision transformers.
三、方 ...
Daily Trend [11-23]
【1】Video-LLaVA: Learning United Visual Representation by Alignment Before Projection【URL】http://arxiv.org/abs/2311.10122
【Time】2023-11-16
一、研究领域
Large Vision-Language Model (LVLM),图像/视频理解。
二、研究动机
目前大多数 LVLM 只能处理单一的视觉模态,而类似于 ImageBind/LanguageBind 的方法又会由于间接对齐而导致性能变差,所以作者提出 Video-LLaVA 将图像和视频模态直接对齐到统一的视觉特征表示和语言特征空间。
三、方法与技术
(1)Overview:先使用预训练的 LanguageBind Encoder 将 Image 和 Video 映射到和文本对齐的特征空间,获得统一的视觉表示,然后和 LLM 共同训练一个 Share Projection Layers 模块来 encode 这个统一的视觉表示。
(2)训练过程:对图像和视频进行联合训练(因为 ...
Daily Trend [11-22]
【1】Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion【URL】https://arxiv.org/abs/2311.01017v1
【Time】2023-11-02
一、研究领域
世界模型,离散扩散模型,自动驾驶
二、研究动机
学习 world model 可以以无监督的方式教会 agent 世界是如何运作的。但是两个瓶颈阻碍了这个领域的发展:
(1)dealing with complex and unstructured observation space
(2)having a scalable generative model
因此,作者提出了一种新颖的世界建模方法,首先使用 VQVAE 对传感器观测进行 tokenizing ,然后通过离散扩散预测未来。
三、方法与技术
(1)Overview:把 agent experience 建模为 o,a 序列(o 是 point cloud observation,a 是 action) ,目标是学习一个 world m ...
Daily Trend [11-21]
【1】Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning【URL】http://arxiv.org/abs/2311.10709
【Time】2023-11-17
一、研究领域
text-to-video generation
二、研究动机
提出假设:加强 conditioning signal 对于高质量视频生成很重要,因为视频本质上是时间序列。于是提出 EMU VIDEO, 通过显式中间图像生成步骤来加强基于扩散的文本到视频生成的 conditioning。具体来说,将文本到视频的生成分解为两个子问题:(1)根据输入文本提示生成图像; (2)基于图像和文本的更强条件生成视频。
三、方法与技术
基本pipeline:
(1)给定文本提示 p 并生成第一帧(图像):使用预训练的 T2I 模型初始化条件扩散模型 F,使之能够根据给定 prompt 生成 image。特别地,在 F 中加入了可学习的 temporal parameters,在每个空间卷积后面添加了 1D 时间卷积,在每 ...
Daily Trend [11-17]
【1】ZeroNVS: Zero-Shot 360-Degree View Synthesis from a Single Real Image【URL】http://arxiv.org/abs/2310.17994
【Time】2023-10-27
一、研究领域
single-image 野外场景新视图合成。
二、研究动机
从真实 single-image 做 full-scene NVS;研究 SDS 用于 3D 场景合成的局限性和解决方案。
三、方法与技术
训练过程很简单:首先训练 2D 扩散模型 pθ 来执行新颖的视图合成,然后利用它来执行 3D SDS 蒸馏。核心贡献在于改进scene representation,conditional information design,以及sds distillation 使之能够完成场景重建任务。
(1)REPRESENTING OBJECTS/GENERIC SCENES FOR VIEW SYNTHESIS:对于object的生成任务,zero123提出了3DoF camera parameterization,但是它 ...