【1】ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion

【URL】http://arxiv.org/abs/2310.10343

【Time】2023-10-16

一、研究领域

新视角生成,3D一致性结构

二、研究动机

希望从单个视图生成多个新视角,并且保证多视图之间的3D一致性,于是提出 ConsistNet,一个用于提升图像扩散模型(如 Zero123)的3D一致性的即插即用的模块。

三、方法与技术

Backbone 是预训练的 LDM。设计一个网络 ConsistNet,为 N 个视角独立运行 N 个 LDM,这 N 个LDM 通过连接到 ConsistNet ,由 ConsistNet 负责聚合视图和推断一致性,然后强制执行 3D 一致性。其中独立运行的 LDM 彼此之间不交互信息,ConsistNet 互联各个 LDM 并传回信息,只有 ConsistNet 模块参数被训练。

Untitled

ConsistNet 模块包含两个子模块:

(i) 视图聚合模块,用于将特征映射投影到世界特征量中,然后使用视图聚合网络来推断一致性;实现方式具体为 self attention 和 3D conv。

(ii) 射线聚合模块,用于对 3D 一致特征进行采样返回每个视图并使用光线聚合网络来强制一致性;实现方式具体为 depth-wise attention 和 cross attention。

Untitled

四、总结

即插即用确实挺好的,但是独立并行一堆LDM有点神秘(而且感觉这样视角数量非常受限)

五、推荐相关阅读

SyncDreamer: Generating Multiview-consistent Images from a Single-view Image