Daily Trend [10-24]
【1】ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion
【URL】http://arxiv.org/abs/2310.10343
【Time】2023-10-16
一、研究领域
新视角生成,3D一致性结构
二、研究动机
希望从单个视图生成多个新视角,并且保证多视图之间的3D一致性,于是提出 ConsistNet,一个用于提升图像扩散模型(如 Zero123)的3D一致性的即插即用的模块。
三、方法与技术
Backbone 是预训练的 LDM。设计一个网络 ConsistNet,为 N 个视角独立运行 N 个 LDM,这 N 个LDM 通过连接到 ConsistNet ,由 ConsistNet 负责聚合视图和推断一致性,然后强制执行 3D 一致性。其中独立运行的 LDM 彼此之间不交互信息,ConsistNet 互联各个 LDM 并传回信息,只有 ConsistNet 模块参数被训练。
ConsistNet 模块包含两个子模块:
(i) 视图聚合模块,用于将特征映射投影到世界特征量中,然后使用视图聚合网络来推断一致性;实现方式具体为 self attention 和 3D conv。
(ii) 射线聚合模块,用于对 3D 一致特征进行采样返回每个视图并使用光线聚合网络来强制一致性;实现方式具体为 depth-wise attention 和 cross attention。
四、总结
即插即用确实挺好的,但是独立并行一堆LDM有点神秘(而且感觉这样视角数量非常受限)
五、推荐相关阅读
SyncDreamer: Generating Multiview-consistent Images from a Single-view Image
http://y-ichen.github.io/2023/10/24/2023-10-24%20[Daily%20Trend]%20360a1abe051e481d8c09f1fecdb9461f/
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.