PointMVS

约 917 字大约 3 分钟

2024-08-11

Abstract

将深度图转换为点云来进行场景优化。
采用了由粗糙到精细的深度图生成策略。
将三维几何先验知识和纹理信息融入到点云中生成增强点云。

方法

1. 初始深度图生成

使用预训练好的MVSNet生成低分辨率的初始深度图。

2. 2D-3D 特征融合

2.1 特征提取

使用步幅为 2 的二维卷积网络对特征图进行下采样

2.1 动态特征融合

源视图表示为 $\{I_i\}_{i=1}^N$

参考视图表示为 $I_0$

经过特征提取网络获取得多尺度深度特征表示为 $\{F_i\}=[F_i^1,F_i^2,F_i^3]$

其中 $1,2,3$ 表示不同尺度， $i$ 表示不同视图。参照MVSNet，将源视图的特征图经过相机参数warp到参考视图，然后基于方差求匹配代价：

C^{j}=\frac{\sum_{i=1}^{N}\left(F_{i}^{j}-\bar{F}^{j}\right)^{2}}{N},(j=1,2,3)\tag{1}

其中 $j $ 表示不同尺度， $i$ 表示不同视图。

将图像特征和3D点云坐标进行拼接得到增广点云特征点如式2所示：

\mathbf{C}_{p}=\text { concat }\left[\mathbf{C}_{p}^{j}, \mathbf{X}_{p}\right],(j=1,2,3)\tag{2}

正如在下一节中看到的那样，由于我们是迭代地预测深度残差，因此我们在每次迭代后更新点位置 $X_p$ 并从图像特征金字塔中获取点特征 $C^k_p$ ，我们将此操作称为动态特征获取。请注意，此步骤不同于基于成本体积的方法，后者在每个体素处获取的特征由场景的固定空间分区确定。相比之下，我们的方法可以根据更新的点位置动态地从图像的不同区域获取特征。因此，我们可以专注于特征图中感兴趣的区域，而不是统一对待它们。