Good Morning

Created2023-10-20

【1】MAGVIT: Masked Generative Video Transformer【URL】http://arxiv.org/abs/2212.05199 【Time】2023-04-04 一、研究领域视频生成、视觉分词器二、研究动机受到最近 DALL·E 等 generative image transformers 的成功的启发，希望通过利用 masked token modeling 和 multi-task learning 提出一种高效且有效的（多任务）视频生成模型。三、方法与技术 Base Model 是 non-autoregressive transformers；分两个阶段训练MAGVIT：（1）Spatial-Temporal Tokenization：目的是将video离散化为tokens。基于 image VQGAN 构建 video VQ autoencoder，特别设计为3D-VQ架构，以对时间动态建模。初始化使用2D-VQ的权重，训练用的损失是逐帧的image perceptual loss。（2）Multi-Task Masked ...

Daily Trend [10-19]

Created2023-10-19

【1】Language Model Beats Diffusion – Tokenizer is Key to Visual Generation【URL】https://arxiv.org/abs/2310.05737v1 【Time】2023/10/09 一、研究领域视频生成，视觉分词器二、研究动机提出一种 video tokenizer，旨在使用通用 token vocabulary 为视频和图像生成简洁且 expressive 的 token 三、方法与技术 Base Model：MAGVIT （1）LOOKUP-FREE QUANTIZER（LFQ）：通过减少emb维度增加词汇量，使用VQGAN类似的损失（2）VISUAL TOKENIZER MODEL IMPROVEMENT：结合 C-ViViT 和 3D CNN 架构四、总结期待开源五、推荐相关阅读 MAGVIT: Masked Generative Video Transformer 【2】NUWA-XL: Diffusion over Diffusion for eXtremely ...

Daily Trend [10-18]

Created2023-10-18

【1】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering【URL】http://arxiv.org/abs/2310.08528 【Time】2023-10-12 一、研究领域动态场景，实时渲染二、研究动机高分辨率的实时动态场景渲染，并且保证高效率的训练和存储三、方法与技术（1）3D 高斯神经体素编码：使用多分辨率HexPlane voxel module来编码每个3D Gaussian的空间和时间信息，因为附近的高斯总是共享相似的变形，而远处的高斯分布之间的关系也不容忽视（2）高斯变形计算：用一个紧凑的decoder layer和独立的MLP计算位移、旋转、缩放（3）Optimization：静态初始化+变形联合优化（微调）四、总结直接看图，性能非常恐怖：五、推荐相关阅读 DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation 【2】From CLIP to DINO: Visual Enco ...

Daily Trend [10-17]

Created2023-10-17

【1】RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control【URL】http://arxiv.org/abs/2307.15818 【Time】2023-07-28 一、研究领域 Robotic Control, Vision-Language Model 二、研究动机对web-scale数据训练的大型视觉语言模型进行微调，以直接充当可泛化和语义感知的robitic policies 三、方法与技术（1）预训练VLM：Base Model 是 PaLI-X 和 PaLM-E （2）将Action离散化为Token，将Robot数据转化为适合VLM模型的数据：方法和RT-1一致（3）Co-fine-tuning：用 robotics data 和 original web data 共同微调VLM（按比率提高）（4）实时推理四、总结最重要的是数据的混合和比例分配【2】Learning Interactive Real-World Simulators【URL】http:/ ...

Daily Trend [10-16]

Created2023-10-16

1【Title】AgentTuning: Enabling Generalized Agent Abilities for LLMs 【URL】https://openreview.net/forum?id=OqlmgmS4Wr 【Time】2023/10/13 一、研究领域 LLM、Agent 二、研究动机提高LLM的代理能力（可泛化）而不损害LLM本身的语言能力。三、方法与技术构建指令数据集和混合微调。基座模型是Llama 2。四、总结代理能力（70B）齐平GPT-3.5 2 【Title】Flexible Diffusion Modeling of Long Videos 【URL】http://arxiv.org/abs/2205.11495 【Time】2022-12-15 一、研究领域长视频生成、扩散模型二、研究动机在各种真实环境中生成长视频三、方法与技术以多帧集合为条件的多帧集合生成四、总结可以生成25分钟不降低质量的长视频（在数据集CARLA Town01 and MineRL上） 3 【Title】Learning ...

OmniObject3D - 每日一读[8.8]

Created2023-08-08

论文链接：http://arxiv.org/abs/2301.07525 发布时间：2023-04-11 一、研究方向：3D数据集二、研究动机：提出OmniObject3D，是一个包含大量高质量真实扫描 3D 对象的广泛语义数据集。（而非合成数据集）包含6000个对象，190个日常类别每个3D对象均通过2D和3D传感器采集，提供纹理网格、点云、多视图渲染图像和多个真实采集的视频具有精确的形状和逼真的外观三、方法与技术：预定义类别列表（与几个著名的 2D 和 3D 数据集共享许多共同类别，例如，覆盖了 ImageNet 中的 85 个类别和 LVIS 中的 130 个类别）收集和高质量扫描各类别物体，获得3D模型根据3D模型，用blender渲染多视角图像，用Open3D工具箱采样多分辨率点云用iPhone 12 Pro拍摄360°视频，然后用COMAP注释帧四、实验： Robust 3D Perception Novel View Synthesis single-scene cross-scene Neural Surface Reconst ...

pixelNeRF - 每日一读[8.7]

Created2023-08-07

论文链接：http://arxiv.org/abs/2012.02190 发布时间：2021-05-30 一、研究方向：少视角合成，单视图重建二、研究动机：issues： NeRF需要许多输入视图和逐场景大量优化时间传统少视角合成方法的相机姿态受限传统方法需要3D监督或者mask 大多数现有方法在canonical space中运行 motivation：少视角合成，跨场景泛化 PixelNeRF是完全前馈的，只需要相对的相机姿态只需要image监督 PixelNeRF 在view space中运行，可以更好地重建未见的对象类别，并且不鼓励记忆训练集三、方法与技术：单视角合成：图片先过卷积得到特征W，然后对于沿着具有视角方向d的目标摄像机射线的查询点x，通过投影和插值从特征体W中提取相应的图像特征。然后将该特征与空间坐标一起传递到 NeRF 网络 f 中。输出的 RGB 和密度值经过体积渲染并与目标像素值进行比较。坐标 x 和 d 位于输入视图的相机坐标系中。 2. 少视角合成（数量可变）：对于每个已知视角同上思路计算中间值Vi: 聚合每个Vi预测最 ...

DreamSparse - 每日一读[7.19]

Created2023-07-19

论文链接： http://arxiv.org/abs/2306.03414 发布时间：2023.6.16 一、研究方向：novel view synthesis, 单物体/场景级别的少视角, lift 2D to 3D 二、研究动机： task：利用预训练的2D diffusion帮助少视角3D生成任务 novelty：不需要逐对象训练 insight：需要为2D扩散模型引入3D先验，即多视角的聚合特征需要保证生成的新视角与ref gt的identity一致性三步走策略：感知：用一种3D Geometry Module来聚合3D特征 guidance：提出了一种spatial guidance来使用聚合特征引导扩散模型，保证几何一致性 identity：提出了一种noise perturbation method，保证identity一致性三、方法与技术：（input：一组上下文图像，output：新视角合成）训练3D Geometry Module 单张图像逐点密度加权：ResNet主干提取语义特征&reshape成4维体积表 ...

Prompt-to-Prompt - 每日一读[7.18]

Created2023-07-18

论文链接： http://arxiv.org/abs/2208.01626 发布时间：2022.8.2 一、研究方向：text-driven image editing（任务包括局部编辑，全局编辑，单词语义效果编辑，都是text-only的）二、研究动机： task: 设计一种直观的prompt-to-prompt编辑框架，其中编辑仅由文本控制 2. insight: 在扩散过程中注入cross attention map, 通过修改交叉注意层中发生的像素到文本的交互, 实现图像编辑三、方法与技术：根据图像和文本计算attention map： Q是图像feature，KV是文本embeddings，M是输出的attantion map 2. 通过编辑扩散过程的cross attention map来实现图像编辑这里区分三种类型的编辑任务： Word Swap（P =“a big red bicycle” -> P∗ =“a big red car”）：直接把attention map替换成编辑目标的. Adding a New ...

Prompt Diffusion - 每日一读[7.17]

Created2023-07-17

论文链接： http://arxiv.org/abs/2305.01115 发布时间：2023.5.1 一、研究方向：扩散模型的in-context learning，vision-language prompt，视觉任务集成二、研究动机： LLM的in-context learning发展得很好（特别是GPT系列展现出的涌现能力），所以也想应用到大规模视觉模型设计有效的vision prompt非常困难以前的工作大多数是针对下游任务做finetune，而不是根据上下文来学习于是提出了一种新的模型架构“Prompt Diffusion”，可以在视觉语言提示下执行上下文学习，可以通用于不同视觉语言任务直观看是这样的，这里聚合了6个不同任务以代表通用性（包括正向任务和逆向任务）三、方法与技术：定义一个通用的vision-language任务，格式是：很直观展示了什么是in-context和vision prompt 2. 架构基于controlnet 这里需要注意的是条件的构造：对于text encoder的输入，依然只是文本text 对于controlnet ...