Daily Trend [11-16]
【1】MARS: An Instance-aware, Modular and Realistic Simulator for Autonomous Driving【URL】https://arxiv.org/abs/2311.01017v1
【Time】2023-07-27
一、研究领域
自动驾驶,NeRF,Simulator
二、研究动机
realistic sensor simulation可以通过模拟解决真实情况下难以收集到的corner case。作者希望提出一个用于构建组合神经辐射场的模块化框架,可以在其中对户外驾驶场景进行真实的传感器模拟。
三、方法与技术
对每个前景实例和背景结点进行组合建模:
(1)分别查询背景和前景节点,,每个节点采样一组3D points,通过特定的神经网络获取相应的point properties(RGB,density,semantics等)
(2)来自背景和前景节点的所有光线样本被组合并进行体积渲染,以产生逐像素渲染结果
Fig. 1. Pipeline. Left: We first calculate the ray-box inter ...
Daily Trend [11-15]
【1】LRM: Large Reconstruction Model for Single Image to 3D【URL】http://arxiv.org/abs/2311.04400
【Time】2023-11-07
一、研究领域
image-to-3D
二、研究动机
直接从数据集预测NeRF。利用大规模训练得到的强大3D先验,5秒就可以从单张图片生成3D模型。
”In light of this, we pose the same question for 3D: given sufficient 3D data and a large-scale training framework, is it possible to learn a generic 3D prior for reconstructing an object from a single image?“
三、方法与技术
包含三个组件:
(1)Image Encoder:先用预训练的VIT把image变成tokens,然后用DINO提取feature sequence。
(2)Image-to-Triplan ...
Daily Trend [11-09]
【1】RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation【URL】http://arxiv.org/abs/2311.01455
【Time】2023-11-02
一、研究领域
generative robotic agent
二、研究动机
robotic research一个很有挑战的task是:赋予机器人多种技能,使它们能够在各种non-factory环境中运行,并为人类执行各种各样的任务。但是,由于现实世界数据收集的昂贵且费力的性质,所以其中许多技能都是在具有适当领域随机化的模拟中进行训练,然后部署到现实世界。文章利用现有的基础模型,提出了一种自动化的范式驱动机器人的skill learning。
三、方法与技术
RoboGen包含四个阶段:
(1)task proposal:使用特定的robot type和从池中随机采样的object来初始化系统,使系统能够生成 meaningful, diverse, and high-level 的 ...
Daily Trend [11-03]
【1】FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling【URL】http://arxiv.org/abs/2310.15169
【Time】2023-10-27
一、研究领域
video generation
二、研究动机
提升视频生成的视觉连贯性,设计一种tuning-free的方法帮助长视频的生成(因为现在的视频生成模型训练基本上只能够做到短视频监督,所以生成的长视频连贯性和一致性都会比较差)。
三、方法与技术
问题定位:给定一个在具有固定数量的 Ntrain 帧的视频上进行预训练的 VideoLDM,目标是通过利用它进行推理来生成更长的视频(例如,M 帧,其中 M > Ntrain),而不会影响质量。要求是生成的 M 个视频帧语义准确且时间上连贯。
推理范式:
(1)Local Noise Shuffle Unit:假设要生成 M 帧的video,先用 N 帧的噪声来初始化,并且用随机从这 N 帧噪声中取随机打乱顺序的 S 帧来逐 S 帧初始化之后的 M - N 帧。
(2)Window ...
Daily Trend [11-02]
【1】Frozen Transformers in Language Models Are Effective Visual Encoder Layers【URL】http://arxiv.org/abs/2310.12973
【Time】2023-10-19
一、研究领域
LLM for Visual Tasks
二、研究动机
“As we explore the limits of utilizing LLMs for computer vision tasks, an interesting question arises: can LLMs effectively handle tasks that are exclusively visual, without any reliance on language?” (感觉这里翻成中文就莫得灵魂了,所以直接引原文的话)
三、方法与技术
(1)从 LLaMA 里取一个预训练的 transformer block ,夹在两个 linear 层中间
(2)把它们夹到一个预训练的 visual Encoder & Decdo ...
Daily Trend [11-01]
【1】VideoCrafter1: Open Diffusion Models for High-Quality Video Generation【URL】http://arxiv.org/abs/2310.19512
【Time】2023-10-30
一、研究领域
Video generation
二、研究动机
两种用于高质量视频生成的扩散模型,即文本到视频(T2V)和图像到视频(I2V)模型。
三、方法与技术
主要包括两个组件:LVDM 和 Video VAE
(1)Video VAE:直接逐帧使用 stable diffusion 预训练的VAE,而不考虑时序信息
(2)LVDM(Latent Video Diffusion Model):3D UNET(cond on text)
特别地,对于image2video任务,用类似于IP-adapter的方式将image embedding和text做了alignment然后作为condition:
四、总结
其实是一篇技术报告,我估计后续他们可能还会做VideoCrafter2?大概会把VAE加入时序信息,因为感觉它现在生成的 ...
Daily Trend [10-27]
【1】Zero123++: a Single Image to Consistent Multi-view Diffusion Base Model【URL】http://arxiv.org/abs/2310.15110
【Time】2023-10-23
一、研究领域
Single-image-to-3D
二、研究动机
提升单视图3D生成的多视角一致性(同时利用pretrained stable diffusion的能力)和image conditioning;zero-shot.
三、方法与技术
(1)多视角联合分布建模:不是单纯地使用绝对视角,而是使用固定的绝对仰角和相对方位角作为新视图以消除 orientation ambiguity
(2)Noise Schedule:将 scaled-linear schedule 改为 linear schedule for noise. 因为前者会限制多视图的全局一致性(经验性观察)
(3)Local Condition: Scaled Reference Attention:在reference image上运行扩散模型,将它在运行过程 ...
Daily Trend [10-25]
【1】TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment【URL】http://arxiv.org/abs/2108.09980
【Time】2021-08-23
一、研究领域
对比学习,video-text对齐,多模态表示学习
二、研究动机
改进大规模预训练和下游特定任务的视频文本对齐
三、方法与技术
Framework 的三个组件:
(1)Video encoding module:先使用一些预训练的模型提取 input video 的特征,然后 Video Encoder 负责通过self attention处理这些 embedings ,得到 m 个 d 维视频特征(m是采样的帧数)
(2)Language encoding module:使用一些预训练的 tokenizer 和 BERT 对文本 token 化并提取 input text 的特征(句子开头和结尾会加[CLS]和[SEP]),然后由 Language Encoder 负责投影得到n个d维文本特征(注意保持 video 和 ...
Daily Trend [10-24]
【1】ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion【URL】http://arxiv.org/abs/2310.10343
【Time】2023-10-16
一、研究领域
新视角生成,3D一致性结构
二、研究动机
希望从单个视图生成多个新视角,并且保证多视图之间的3D一致性,于是提出 ConsistNet,一个用于提升图像扩散模型(如 Zero123)的3D一致性的即插即用的模块。
三、方法与技术
Backbone 是预训练的 LDM。设计一个网络 ConsistNet,为 N 个视角独立运行 N 个 LDM,这 N 个LDM 通过连接到 ConsistNet ,由 ConsistNet 负责聚合视图和推断一致性,然后强制执行 3D 一致性。其中独立运行的 LDM 彼此之间不交互信息,ConsistNet 互联各个 LDM 并传回信息,只有 ConsistNet 模块参数被训练。
ConsistNet 模块包含两个子模块:
(i) 视图聚合模块,用于将特征映射投影到世界特征量中,然后使用视图聚 ...
Daily Trend [10-23]
【1】World Models【URL】http://arxiv.org/abs/1803.10122
【Time】2018-05-09
一、研究领域
强化学习,世界模型
二、研究动机
着眼于训练大型神经网络来处理强化学习任务,方法是将智能体划分为大型世界模型和小型控制器模型。为强化学习的 environments 构建的生成模型称为世界模型。
“The image of the world around us, which we carry in our head, is just a model. Nobody in his head imagines all the world, government or country. He has only selected concepts, and relationships between them, and uses those to represent the real system. (Forrester, 1971)” 我们头脑中的周围世界的形象只是一个模型。没有人会想象整个世界、政府或国家。他只选择了概念以及它们之间的 ...