avatar
Articles
35
Tags
1
Categories
0

Home
Link
Good Morning
Home
Link

Good Morning

Daily Trend [10-20]
Created2023-10-20
【1】MAGVIT: Masked Generative Video Transformer【URL】http://arxiv.org/abs/2212.05199 【Time】2023-04-04 一、研究领域 视频生成、视觉分词器 二、研究动机 受到最近 DALL·E 等 generative image transformers 的成功的启发,希望通过利用 masked token modeling 和 multi-task learning 提出一种高效且有效的(多任务)视频生成模型。 三、方法与技术 Base Model 是 non-autoregressive transformers;分两个阶段训练MAGVIT: (1)Spatial-Temporal Tokenization:目的是将video离散化为tokens。基于 image VQGAN 构建 video VQ autoencoder,特别设计为3D-VQ架构,以对时间动态建模。初始化使用2D-VQ的权重,训练用的损失是逐帧的image perceptual loss。 (2)Multi-Task Masked ...
Daily Trend [10-19]
Created2023-10-19
【1】Language Model Beats Diffusion – Tokenizer is Key to Visual Generation【URL】https://arxiv.org/abs/2310.05737v1 【Time】2023/10/09 一、研究领域 视频生成,视觉分词器 二、研究动机 提出一种 video tokenizer,旨在使用通用 token vocabulary 为视频和图像生成简洁且 expressive 的 token 三、方法与技术 Base Model:MAGVIT (1)LOOKUP-FREE QUANTIZER(LFQ):通过减少emb维度增加词汇量,使用VQGAN类似的损失 (2)VISUAL TOKENIZER MODEL IMPROVEMENT:结合 C-ViViT 和 3D CNN 架构 四、总结 期待开源 五、推荐相关阅读 MAGVIT: Masked Generative Video Transformer 【2】NUWA-XL: Diffusion over Diffusion for eXtremely ...
Daily Trend [10-18]
Created2023-10-18
【1】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering【URL】http://arxiv.org/abs/2310.08528 【Time】2023-10-12 一、研究领域 动态场景,实时渲染 二、研究动机 高分辨率的实时动态场景渲染,并且保证高效率的训练和存储 三、方法与技术 (1)3D 高斯神经体素编码:使用多分辨率HexPlane voxel module来编码每个3D Gaussian的空间和时间信息,因为附近的高斯总是共享相似的变形,而远处的高斯分布之间的关系也不容忽视 (2)高斯变形计算:用一个紧凑的decoder layer和独立的MLP计算位移、旋转、缩放 (3)Optimization:静态初始化+变形联合优化(微调) 四、总结 直接看图,性能非常恐怖: 五、推荐相关阅读 DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation 【2】From CLIP to DINO: Visual Enco ...
Daily Trend [10-17]
Created2023-10-17
【1】RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control【URL】http://arxiv.org/abs/2307.15818 【Time】2023-07-28 一、研究领域 Robotic Control, Vision-Language Model 二、研究动机 对web-scale数据训练的大型视觉语言模型进行微调,以直接充当可泛化和语义感知的robitic policies 三、方法与技术 (1)预训练VLM:Base Model 是 PaLI-X 和 PaLM-E (2)将Action离散化为Token,将Robot数据转化为适合VLM模型的数据:方法和RT-1一致 (3)Co-fine-tuning:用 robotics data 和 original web data 共同微调VLM(按比率提高) (4)实时推理 四、总结 最重要的是数据的混合和比例分配 【2】Learning Interactive Real-World Simulators【URL】http:/ ...
Daily Trend [10-16]
Created2023-10-16
1【Title】AgentTuning: Enabling Generalized Agent Abilities for LLMs 【URL】https://openreview.net/forum?id=OqlmgmS4Wr 【Time】2023/10/13 一、研究领域 LLM、Agent 二、研究动机 提高LLM的代理能力(可泛化)而不损害LLM本身的语言能力。 三、方法与技术 构建指令数据集和混合微调。基座模型是Llama 2。 四、总结 代理能力(70B)齐平GPT-3.5 2 【Title】Flexible Diffusion Modeling of Long Videos 【URL】http://arxiv.org/abs/2205.11495 【Time】2022-12-15 一、研究领域 长视频生成、扩散模型 二、研究动机 在各种真实环境中生成长视频 三、方法与技术 以多帧集合为条件的多帧集合生成 四、总结 可以生成25分钟不降低质量的长视频(在数据集CARLA Town01 and MineRL上) 3 【Title】Learning ...
OmniObject3D - 每日一读[8.8]
Created2023-08-08
论文链接:http://arxiv.org/abs/2301.07525 发布时间:2023-04-11 一、研究方向:3D数据集 二、研究动机:提出OmniObject3D,是一个包含大量高质量真实扫描 3D 对象的广泛语义数据集。(而非合成数据集) 包含6000个对象,190个日常类别 每个3D对象均通过2D和3D传感器采集,提供纹理网格、点云、多视图渲染图像和多个真实采集的视频 具有精确的形状和逼真的外观 三、方法与技术: 预定义类别列表(与几个著名的 2D 和 3D 数据集共享许多共同类别,例如,覆盖了 ImageNet  中的 85 个类别和 LVIS 中的 130 个类别) 收集和高质量扫描各类别物体,获得3D模型 根据3D模型,用blender渲染多视角图像,用Open3D工具箱采样多分辨率点云 用iPhone 12 Pro拍摄360°视频,然后用COMAP注释帧 四、实验: Robust 3D Perception Novel View Synthesis single-scene cross-scene Neural Surface Reconst ...
pixelNeRF - 每日一读[8.7]
Created2023-08-07
论文链接:http://arxiv.org/abs/2012.02190 发布时间:2021-05-30 一、研究方向:少视角合成,单视图重建 二、研究动机:issues: NeRF需要许多输入视图和逐场景大量优化时间 传统少视角合成方法的相机姿态受限 传统方法需要3D监督或者mask 大多数现有方法在canonical space中运行 motivation: 少视角合成,跨场景泛化 PixelNeRF是完全前馈的,只需要相对的相机姿态 只需要image监督 PixelNeRF 在view space中运行,可以更好地重建未见的对象类别,并且不鼓励记忆训练集 三、方法与技术: 单视角合成: 图片先过卷积得到特征W,然后对于沿着具有视角方向d的目标摄像机射线的查询点x,通过投影和插值从特征体W中提取相应的图像特征。然后将该特征与空间坐标一起传递到 NeRF 网络 f 中。输出的 RGB 和密度值经过体积渲染并与目标像素值进行比较。坐标 x 和 d 位于输入视图的相机坐标系中。 2. 少视角合成(数量可变): 对于每个已知视角同上思路计算中间值Vi: 聚合每个Vi预测最 ...
DreamSparse - 每日一读[7.19]
Created2023-07-19
论文链接: http://arxiv.org/abs/2306.03414 发布时间:2023.6.16 一、研究方向:novel view synthesis, 单物体/场景级别的少视角, lift 2D to 3D 二、研究动机: task:利用预训练的2D diffusion帮助少视角3D生成任务 novelty:不需要逐对象训练 insight: 需要为2D扩散模型引入3D先验,即多视角的聚合特征 需要保证生成的新视角与ref gt的identity一致性 三步走策略: 感知:用一种3D Geometry Module来聚合3D特征 guidance:提出了一种spatial guidance来使用聚合特征引导扩散模型,保证几何一致性 identity:提出了一种noise perturbation method,保证identity一致性 三、方法与技术:(input:一组上下文图像,output:新视角合成) 训练3D Geometry Module 单张图像逐点密度加权:ResNet主干提取语义特征&reshape成4维体积表 ...
Prompt-to-Prompt - 每日一读[7.18]
Created2023-07-18
论文链接: http://arxiv.org/abs/2208.01626 发布时间:2022.8.2 一、研究方向:text-driven image editing(任务包括局部编辑,全局编辑,单词语义效果编辑,都是text-only的) 二、研究动机: task: 设计一种直观的prompt-to-prompt编辑框架,其中编辑仅由文本控制 2. insight: 在扩散过程中注入cross attention map, 通过修改交叉注意层中发生的像素到文本的交互, 实现图像编辑 三、方法与技术: 根据图像和文本计算attention map: Q是图像feature,KV是文本embeddings,M是输出的attantion map 2. 通过编辑扩散过程的cross attention map来实现图像编辑 这里区分三种类型的编辑任务: Word Swap(P =“a big red bicycle” -> P∗ =“a big red car”):直接把attention map替换成编辑目标的. Adding a New ...
Prompt Diffusion - 每日一读[7.17]
Created2023-07-17
论文链接: http://arxiv.org/abs/2305.01115 发布时间:2023.5.1 一、研究方向:扩散模型的in-context learning,vision-language prompt,视觉任务集成 二、研究动机: LLM的in-context learning发展得很好(特别是GPT系列展现出的涌现能力),所以也想应用到大规模视觉模型 设计有效的vision prompt非常困难 以前的工作大多数是针对下游任务做finetune,而不是根据上下文来学习 于是提出了一种新的模型架构“Prompt Diffusion”,可以在视觉语言提示下执行上下文学习,可以通用于不同视觉语言任务 直观看是这样的,这里聚合了6个不同任务以代表通用性(包括正向任务和逆向任务) 三、方法与技术: 定义一个通用的vision-language任务,格式是: 很直观展示了什么是in-context和vision prompt 2. 架构基于controlnet 这里需要注意的是条件的构造: 对于text encoder的输入,依然只是文本text 对于controlnet ...
1234
avatar
Yichen
Articles
35
Tags
1
Categories
0
Follow Me
Announcement
This is my Blog
Recent Post
Daily Trend [01-08]2024-01-08
Daily Trend [12-15]2023-12-15
Daily Trend [12-12]2023-12-12
Daily Trend [12-04]2023-12-04
Daily Trend [11-29]2023-11-29
Tags
read
Archives
  • January 20241
  • December 20233
  • November 202312
  • October 20239
  • August 20232
  • July 20238
Info
Article :
35
UV :
PV :
Last Push :
©2023 - 2024 By Yichen
Framework Hexo|Theme Butterfly