论文链接:

http://arxiv.org/abs/2306.03414

发布时间:2023.6.16


一、研究方向:

novel view synthesis, 单物体/场景级别的少视角, lift 2D to 3D

二、研究动机:

  1. task:利用预训练的2D diffusion帮助少视角3D生成任务

  2. novelty:不需要逐对象训练

  3. insight:

    • 需要为2D扩散模型引入3D先验,即多视角的聚合特征
    • 需要保证生成的新视角与ref gt的identity一致性
  4. 三步走策略:

    • 感知:用一种3D Geometry Module来聚合3D特征
    • guidance:提出了一种spatial guidance来使用聚合特征引导扩散模型,保证几何一致性
    • identity:提出了一种noise perturbation method,保证identity一致性

三、方法与技术:

(input:一组上下文图像,output:新视角合成)

  1. 训练3D Geometry Module
  • 单张图像逐点密度加权:ResNet主干提取语义特征&reshape成4维体积表示,双线性采样对齐空间维度,三线性插值拼接特征向量,线性投影层加权

  • 上下文图像特征聚合:对每条查询射线target,计算每个相应上下文图像的相应射线特征,然后聚合:

  • 颜色聚合:

spatial feature的可视化

2. 为spatial guidance训练controlnet:

T是引导模块

在训练时,使用真实图像作为 x0 来优化 L_diffusion,在推理时,使用从 gφ,color 渲染的图像来初始化 x0。

3. noise perturbation method:加一定steps的噪声(其实说白了就是控制去噪步数)

pipeline:

四、实验结果:

  1. 和baseline比较

2. LPIPS Score 和FID:

3. 新视角合成(物体级别和场景级别)

4. 结合文本引导

5. Ablation

  • spatial guidance 的 CFG Scale:

  • noise perturbation 的 steps:

五、主要贡献:

  1. 少视角重建
  2. 可泛化

评价:

  • noise perturbation保证一致性看起来不太科学,和identity consistency其实关系很弱,感觉主要还是因为和spatial guidance的配合
  • limitation:很难生成复杂场景
  • 但是gemometry感知和引导的方法值得学习

推荐相关阅读:

  • Sparsefusion: Distilling view-conditioned diffusion for 3d reconstruction
  • Generative novel view synthesis with 3d-aware diffusion models