ISO
约 454 字大约 2 分钟
2025-05-06
基于摄像头的三维空间占用预测在室外驾驶场景中最近受到了越来越多的关注。然而,在室内场景中的研究仍然相对较少。室内场景的核心差异在于场景尺度的复杂性和物体尺寸的变化性。
在本文中,我们提出了一种名为ISO的新方法,用于利用单目图像预测室内场景的占用情况。ISO利用预训练深度模型的优势,实现了准确的深度预测。此外,我们在ISO中引入了双特征视线投影(D-FLoSP)模块,该模块增强了三维体素特征的学习能力。
为了推动该领域的进一步研究,我们引入了Occ-ScanNet,这是一个针对室内场景的大规模占用基准数据集。该数据集的规模是NYUv2数据集的40倍,为室内场景分析的未来可扩展研究提供了便利。
在NYUv2和Occ-ScanNet上的实验结果表明,我们的方法达到了最先进的性能。
ISO的核心设计围绕从二维到三维空间的特征转换展开,涵盖了深度分支(Depth Branch)和双特征视线投影(D-FLoSP)模块。
首先集成的是深度分支,它利用预训练的深度模型估计像素级深度图,然后通过DepthNet处理以生成最终的深度分布。
接下来,对体素深度和特征进行逐元素相乘,再进行求和操作,以得出初始的三维体素特征。
随后,进一步处理三维特征以预测三维场景的占用情况。