OccFusion
约 9432 字大约 31 分钟
2025-06-10
OCCFusion: Multi-Sensor Fusion Framework for 3D Semantic Occupancy Prediction
OccFusion:用于3D语义占据预测的多传感器融合框架
https://github.com/DanielMing123/OCCFusion
https://arxiv.org/pdf/2403.01644
摘要
对3D场景的全面理解在自动驾驶车辆(AVs)中至关重要,而近年来用于3D语义占据预测的模型已成功解决了描述具有不同形状和类别的真实世界物体的挑战。然而,现有的3D占据预测方法高度依赖环视摄像头图像,使其容易受到光照和天气条件变化的影响。本文介绍了OccFusion,一种用于预测3D占据的新型传感器融合框架。通过整合来自其他传感器(如激光雷达和环视雷达)的特征,我们的框架提高了占据预测的准确性和鲁棒性,在nuScenes基准测试中达到了顶级性能。此外,在nuScenes和SemanticKITTI数据集上进行的广泛实验(包括具有挑战性的夜间和雨天场景)证实了我们的传感器融合策略在不同感知范围内的卓越性能。该框架的代码将在https://github.com/DanielMing123/OccFusion上公开。
关键词:自动驾驶车辆,3D语义占据预测,环境感知
I. 引言
注
图 1 展示了两种方法的流程:纯视觉中心的方法(顶部)和多传感器融合的方法(底部)。我们通过融合三种模态的特征体积来进行 3D 语义占有率预测。
对三维世界的理解和建模对于自动驾驶车辆(AVs)的安全导航至关重要,这既能防止碰撞,也能辅助局部路径规划。随着技术进步,3D占据表征的提出成功解决了传统3D物体检测网络的局限性——特别是在检测不规则物体和空间占据状态预测方面。这一进步进一步增强了自动驾驶车辆对三维世界的建模能力。然而,当前提出的3D占据预测模型[1-4]主要集中于基于视觉的方法(图1上)。虽然环视摄像头具有成本效益,但其感知能力极易受到雨雾等恶劣天气条件以及夜间光照变化的影响,导致模型在这些场景下表现不稳定,可能引发安全隐患。
除环视摄像头外,自动驾驶车辆通常还配备激光雷达和环视毫米波雷达。激光雷达擅长捕捉物体的几何形状并精确测量深度,且对光照变化具有鲁棒性,在除暴雨和浓雾外的各种天气条件下表现稳定。相比之下,环视毫米波雷达成本低廉,对天气和光照变化具有极强的鲁棒性,但仅能提供稀疏且常含噪声的特征。每种传感器各有优劣,若能结合这三种传感器的信息(图1下),则有望提升自动驾驶车辆3D占据预测模型的准确性,从而更精准地建模三维世界,同时增强系统在多变光照和天气条件下的鲁棒性。
为实现精准高效的3D占据预测,我们提出了名为OccFusion的框架。该框架通过动态融合3D/2D模块整合环视摄像头、环视雷达和360度激光雷达的特征。我们采用三种传感器融合策略:摄像头+雷达、摄像头+激光雷达以及摄像头+激光雷达+雷达。为评估不同融合策略的准确性,我们在nuScenes数据集[15]上进行了实验,并利用SurroundOcc[7]和Occ3D[6]提供的真实标签进行验证。此外,我们还从nuScenes验证集中手动选取雨天和夜间场景构建了两个具有挑战性的子集,以检验不同传感器融合策略在这些场景下的表现。最后,我们测试了不同传感器融合策略在不同感知范围内的性能变化。
(图1:两种方法的流程对比:纯视觉中心方法(上)与多传感器融合方法(下)。我们通过融合三种模态特征体积来进行3D语义占据预测。)
本文的主要贡献总结如下:
- 提出了一种多传感器融合框架,用于将相机、激光雷达和雷达信息集成到 3D 语义占有率预测任务中。
- 我们将我们的方法与其他 3D 语义占有率预测任务中的最新(SOTA)算法进行了比较,以证明多传感器融合的优势。
- 我们进行了广泛的消融研究,以评估在具有挑战性的光照和天气条件(如夜间和雨天场景)下,不同传感器组合的性能提升情况。
- 我们进行了全面的研究,分析了感知范围因素对我们框架在 3D 语义占有率预测任务中的性能的影响,考虑了各种传感器组合和具有挑战性的场景。
本文的其余部分结构如下:第 II 节提供了相关研究的概述,并指出了本研究与以往出版物的关键差异。第 III 节概述了 OccFusion 的总体框架,并详细解释了每个模块的实现。第 IV 节展示了我们的实验结果。最后,第 V 节对我们的工作进行了总结。
II. 相关工作
本节介绍了用于自动驾驶环境中感知的各种传感器融合算法的最新研究成果。
A. 基于相机的环境感知
近年来,由于环视相机在自动驾驶汽车(AVs)领域的成本效益和多功能性,基于环视相机的环境感知算法受到了广泛关注。基于鸟瞰图(BEV)特征的算法 [2]–[4],[16]–[19] 成功地整合了所有环视相机的信息,以执行 3D 目标检测任务。通过将 BEV 特征提升到 3D 特征体积,算法 [2],[10] 能够执行 3D 语义占有率任务。这些算法中用于视图变换的两种主要方法是经典的 Lift-Splat-Shoot(LSS)方法和基于 Transformer 的方法。LSS 基方法 [12],[20] 依赖于深度估计来生成伪 3D 点云,随后通过体素池化创建最终的 3D 特征体积。另一方面,基于 Transformer 的方法 [5]–[9],[11],[13] 使用采样点从特征图中聚合视觉特征,并将这些特征直接放置在世界中特定的 3D 位置,形成最终的 3D 特征体积。这两种方法都明确估计深度或在视觉特征中隐式编码深度信息。然而,众所周知,单目相机无法准确估计深度。虽然它们可以捕捉到物体的相对深度位置,但无法提供精确的深度信息。因此,需要更可靠的深度信息参考。这可能涉及将激光雷达信息整合到模型中以增强深度估计,或者使用激光雷达信息来监督深度估计,如 BEVDet 系列方法中所采用的。
B. 基于激光雷达的环境感知
仅使用激光雷达的环境感知算法 [21]–[31] 在各种感知任务中展现出了令人鼓舞的性能。凭借其准确的深度估计能力,激光雷达在捕捉物体的几何形状和 3D 位置方面表现出色。通过将 3D 点云转换为欧几里得特征空间,例如 3D 体素网格 [32] 或特征柱 [33],基于激光雷达的方法能够实现高度精确的 3D 目标检测结果。近年来,研究人员将激光雷达的 3D 点云特征扩展到了 3D 语义占有率预测任务 [34],[35] 中。然而,激光雷达生成的 3D 点云的密度强烈影响模型的最终感知性能,而且由于缺乏语义信息,导致物体类别识别不准确。因此,需要辅助信息来提供全面的语义信息指导,这促使我们的工作将激光雷达数据与相机数据融合,以增强 3D 语义占有率预测的性能。
C. 基于相机 - 激光雷达融合的环境感知
由于单个传感器固有的优势和劣势,近期的研究重点转向了传感器融合技术 [36]–[41],以克服这些限制并增强模型的整体环境感知能力。具有代表性的 BEVFusion [42],[43] 算法通过将每种模态的特征编码为 BEV 特征并执行特征融合,实现了激光雷达和环视相机的融合。这种方法解决了激光雷达在雨天和雾天场景中遇到的反射问题,通常会导致误检和漏检。它还解决了单目相机深度估计不佳的问题,使模型能够在较远距离处生成相对准确的检测结果。SparseFusion [44] 进一步优化了特征融合模块的内部结构,显著提高了模型的推理速度。然而,目前大多数现有算法主要服务于 3D 目标检测。因此,迫切需要对相机 - 激光雷达融合技术进行广泛研究,以用于 3D 语义占有率预测。
D. 基于相机 - 雷达融合的环境感知
由于雷达的成本效益以及其检测远距离物体的能力,已针对相机和雷达的融合进行了各种研究 [45]–[47]。例如,[48] 中的工作表明,从雷达传感器获得的速度信息可以增强检测性能。此外,[49] 中的一项研究表明,将雷达特征与视觉特征整合可以使性能在 nuScene 检测分数(NDS)指标下提高约 12%。此外,[50] 中的另一项研究发现,雷达传感器读数在嘈杂条件下表现出鲁棒性,整合雷达信息可以改善模型在具有挑战性的场景中的性能。尽管已经开发出各种算法以实现相机 - 雷达融合,但大多数都专注于 3D 目标检测、目标跟踪和目标未来轨迹预测任务。没有专门用于 3D 语义占有率预测任务的相机 - 雷达融合算法。此外,该任务需要密集特征,而雷达提供的是稀疏特征。因此,我们研究了将这些稀疏雷达特征与相机和激光雷达数据合并时对模型性能的影响。据我们所知,我们的研究是首次检验融合雷达信息对 3D 语义占有率预测任务的影响。
E. 基于相机 - 激光雷达 - 雷达融合的环境感知
由于多传感器融合的互补性,该领域的研究人员还研究了相机 - 激光雷达 - 雷达融合策略及其在环境感知中的性能。在 CLR-BNN [51] 中,作者采用贝叶斯神经网络进行相机 - 激光雷达 - 雷达传感器融合,在 2D 多目标检测的 mAP 方面取得了改进结果。在 Futr3D [52] 中,进一步探索了通过引入 Transformer 来进行传感器融合,使用稀疏的 3D 点作为查询来聚合来自三种传感器的特征,用于 3D 目标检测任务,查询形式显著提高了三个传感器之间的特征交互和聚合效率。在 SimpleBEV [53] 中,作者将所有三种传感器的数据处理成 BEV 特征,并基于三种 BEV 表示融合这些特征以执行 3D 目标检测任务;在他们的研究中,他们发现雷达数据对性能提升有很大帮助。以往的研究已广泛研究了三种传感器融合方法在环境感知中的特性,但这些工作主要集中在 2D 或 3D 多目标检测任务上,忽略了对 3D 语义占有率预测任务的研究。因此,需要研究相机 - 激光雷达 - 雷达传感器融合策略在 3D 语义占有率预测任务中的性能。
III. OCCFUSION
A. 问题陈述
本文旨在通过整合环视相机(Cam={Cam1,Cam2,…,CamN})、环视雷达(Rad={Rad1,Rad2,…,RadN})和激光雷达Lid 的信息,生成周围场景的密集 3D 语义占有率网格。因此,该问题可以表述为:
Occ=F(Cam,Rad,Lid)
其中,F 表示用于 3D 占有率预测的多传感器信息融合框架。最终的 3D 占有率预测结果用 Occ∈RX×Y×Z 表示,其中每个网格都被赋予了一个语义属性,范围从 0 到 17。在我们的情况下,类别值为 0 表示空网格。
B. 总体架构
图 2 展示了我们所提出的框架的总体架构。
注
图 2:OccFusion 的总体架构。 首先,将环视图像输入 2D 主干网络以提取多尺度特征。随后,对每个尺度进行视图变换,以获得该层级的全局 BEV 特征和局部 3D 特征体积。同时,将激光雷达和环视雷达生成的 3D 点云输入 3D 主干网络,以分别生成多尺度的局部 3D 特征体积和全局 BEV 特征。之后,将每个层级的合并后的全局 BEV 特征和局部 3D 特征体积输入全局 - 局部注意力融合模块,以生成每个尺度的最终 3D 体积。最后,对每个层级的 3D 体积进行上采样,并执行跳跃连接,同时采用多尺度监督机制。
首先,给定环视图像、激光雷达生成的密集 3D 点云 PDense 和环视雷达生成的稀疏 3D 点云 PSparse,我们应用 2D 主干网络(例如 ResNet101-DCN)来从图像中提取总共 L 个尺度的特征 M={Mln∣n∈{1,2,…,N},l∈{1,2,…,L}},其中 Mln∈RCl×Hl×Wl。
随后,通过视图变换获得每个尺度的全局 BEV 特征 FCamlglobal∈RCl×Xl×Yl 和局部 3D 特征体积 FCamllocal∈RCl×Xl×Yl×Zl。
与此同时,3D 主干网络(例如 VoxelNet)也被应用于密集和稀疏的 3D 点云,以分别生成多尺度的全局 BEV 特征 FRadlglobal∈RCl×Xl×Yl、FLidlglobal∈RCl×Xl×Yl 和局部 3D 特征体积 FRadllocal∈RCl×Xl×Yl×Zl、FLidllocal∈RCl×Xl×Yl×Zl。
接着,将每个层级的 FCamlglobal、FRadlglobal 和 FLidlglobal 输入到动态融合 2D 模块中,以获得合并后的全局 BEV 特征 FMergedlglobal。
同时,每个层级的 FCamllocal、FRadllocal 和 FLidllocal 也被输入到动态融合 3D 模块中,以获得合并后的局部 3D 特征体积 FMergedllocal。
随后,在每个层级使用 [14] 中提出的全局 - 局部注意力融合模块,进一步合并 FMergedllocal 和 FMergedlglobal,从而在每个层级产生最终的 3D 体积。此外,在每个层级之间实现了跳跃连接结构,以通过粗到细的方式细化特征,并应用多尺度监督以提高模型的性能。
C. 环视图像特征提取
给定环视图像后,我们首先采用 ResNet101-DCN [54] 作为 2D 主干网络,并使用特征金字塔网络(FPN)[55] 作为颈部结构,以提取多尺度特征图。得到的特征图分辨率分别是输入图像分辨率的 81、161 和 321。随后,通过视图变换获得多尺度的全局 BEV 特征和局部 3D 特征体积。较小分辨率的全局和局部特征包含有价值的语义信息,有助于模型预测每个体素网格的语义类别。相反,较大分辨率的特征提供丰富的空间信息,使模型能够确定当前的体素网格是被占用还是未被占用。
D. 激光雷达密集 3D 点云特征提取
在本文中,我们采用 VoxelNet [32] 作为 3D 主干网络,用于提取 3D 点云的特征。
我们首先将 3D 点云体素化,以生成体素网格及其相关坐标。在每个包含 3D 点的体素网格中,随机选择 35 个点。如果一个体素网格中的点数少于 35 个,则通过零填充达到 35 个点。每个点 pLidi 包含一个初始特征向量 pLidi=[xi,yi,zi,γi],表示点的 3D 位置和反射率。
随后,我们计算同一体素网格内这些 3D 点的中心位置,并为每个点添加相对于中心位置的相对偏移量。这种增强操作产生了一个新的特征向量 pLidi=[xi,yi,zi,γi,xi−xˉ,yi−yˉ,zi−zˉ]。
在完成这些操作后,只有包含 3D 点的体素网格被输入到 3D 主干网络中,以进一步细化特征,从而产生最终的局部 3D 特征体积。
此外,我们还沿局部 3D 特征体积的 Z 轴应用平均池化操作,以获得全局 BEV 特征。3D 主干网络输出最高分辨率的全局和局部特征,而较低分辨率的特征则通过 3D/2D 下采样操作获得。
E. 雷达稀疏 3D 点云特征提取
与激光雷达 3D 点相比,雷达 3D 点包含更丰富的信息。
每个雷达 3D 点的初始特征向量为 pRadi=[xi,yi,zi,Vxi,Vyi],其中 Vxi 表示沿 X 轴的速度,Vyi 表示沿 Y 轴的速度。
与处理激光雷达点云类似,我们首先对雷达 3D 点云进行体素化,并获得体素网格及其相关坐标。
对于包含点的体素网格,我们计算这些 3D 点的平均值,并为每个点添加相对于平均值的相对偏移量。这种增强操作产生了一个新的特征向量 pRadi=[xi,yi,zi,Vxi,Vyi,xi−xˉ,yi−yˉ,zi−zˉ,Vxi−Vxˉ,Vyi−Vyˉ]。随后,我们将非空体素网格输入到 3D 主干网络中,以获得局部 3D 特征体积,然后应用平均池化操作以获得全局 BEV 特征。
F. 动态融合 3D/2D
借鉴 BEVFusion [42],[43] 和 SENet [56] 的思路,本研究通过连接它们的特征通道来合并两个 BEV 特征和两个 3D 特征体积。
随后,应用 Conv3D/2D 层来降低特征通道维度,以便在合并来自不同模态的有价值特征的同时过滤掉噪声特征。这一过程随后通过 3D/2D SENet 块实现,其中合并后的特征被输入到挤压模块中,以确定每个特征通道的重要性。
然后,激励模块通过将合并后的特征与挤压特征相乘来执行激励操作,从而使关键特征占据主导地位。
动态融合 2D 模块的详细信息如图 3 的上部所示,而动态融合 3D 模块的具体内容则展示在图 3 的下部。
注
图 3:动态融合 3D/2D 模块。 上部图表展示了动态融合 2D 模块的详细处理过程,而下部图表则展示了动态融合 3D 模块的详细处理过程。
IV. 实验结果
A. 实现细节
OccFusion 使用 ResNet101-DCN [57],[58] 作为 2D 主干网络,采用 FCOS3D [59] 提供的预训练权重来提取图像特征。主干网络的特征图从阶段 1、2 和 3 输入到 FPN [55] 中,从而产生三个级别的多尺度图像特征。
网络架构包含四个级别(L=4),最高级别没有应用跳跃连接。我们的框架适用于任何视图变换方法。在本文中,我们选择使用 InverseMatrixVT3D [14] 中提出的视图变换方法来聚合视觉特征。值得一提的是,当框架不合并激光雷达和雷达信息时,它与 InverseMatrixVT3D 算法相同。因此,OccFusion(C)的性能与 InverseMatrixVT3D 相同。我们的框架使用 10 个激光雷达扫描和 5 个环视雷达扫描作为每个数据样本。
为了提取 3D 特征体积,我们使用 VoxelNet [32] 作为框架的 3D 主干网络,它处理来自激光雷达的密集 3D 点云和来自环视雷达的稀疏 3D 点云。
使用初始学习率为 5×10−5、权重衰减为 0.01 的 AdamW 优化器进行优化。学习率通过多步调度器进行衰减。该模型在八块 A10 GPU 上进行训练,每块 GPU 配备 24GB 内存,训练时长为两天。
B. 损失函数
该框架采用焦点损失 [60]、Lovász-Softmax 损失 [61] 和场景类别亲和力损失 [1] 进行训练。考虑到高分辨率 3D 体积的重要性高于低分辨率 3D 体积,对第 l 级的监督应用了衰减损失权重 w=2l1。最终的损失公式如下:
L=l=1∑L2l1(Lfocal+LLovaˊsz+Lscene affinity)
其中 l 表示框架内的第 l 级。
C. 数据集
我们的 3D 语义占有率预测和 3D 场景补全实验是使用 nuScenes 数据集进行的。实验中使用的真值标签来自 SurroundOcc [7] 和 Occ3D [6] 的工作。
SurroundOcc 的标签范围在 X 和 Y 方向上为 -50 米到 50 米,在 Z 方向上为 -5 米到 3 米。这个范围适合我们模型对感知范围因素的消融研究。
另一方面,Occ3D 为相对较小的感知范围提供了真值标签,该范围在 X 和 Y 方向上为 -40 米到 40 米,在 Z 方向上为 -1 米到 5.4 米。此外,由于 Occ3D 的标签是为纯视觉中心算法设计的,因此为每个体素网格提供了可见性掩码,评估仅考虑可见的体素。
由于测试集标签不可用,我们在训练集上训练我们的模型,并在验证集上评估其性能。
此外,我们从 nuScenes 验证集中选择了特定的帧,使用 SurroundOcc 的工作中的真值标签来建立对应于雨天和夜间场景的子集。验证集、雨天场景子集和夜间场景子集的类别分布如图 4 所示。每个集中样本数为零的类别未在图中列出。
注
图 4:三个验证集的类别分布情况。(a)整个验证集的类别分布,(b)雨天场景子集的类别分布,以及(c)夜间场景子集的类别分布。
为了进一步验证我们方法的有效性,我们在 SemanticKITTI 数据集上进行了语义场景补全实验,使用来自左 RGB 相机和激光雷达的数据。SemanticKITTI 提供了被分类为 21 个语义类别的室外激光雷达扫描注释。输入图像的分辨率为 1241×376,真值被体素化为 256×256×32 的网格,体素大小为 0.2 米。由于该数据集中缺乏雷达传感器,我们在验证集上评估了我们的 OccFusion(C+L)模型。
D. 性能评估指标
在评估各种最新(SOTA)算法在 3D 语义占有率预测方面的有效性并将其与我们的方法进行对比时,我们使用交并比(IoU)来评估每个语义类别。此外,我们还采用 IoU 来评估场景补全任务,忽略被占用体素的语义类别。此外,所有语义类别的平均 IoU(mIoU)作为综合评估指标:
mIoU=Cls1i=1∑ClsTPi+FPi+FNiTPi
其中,TPi、FPi 和 FNi 分别表示我们在预测中针对第 i 个类别的真阳性、假阳性和假阴性的数量,而 Cls 表示总类别数。
E. 模型性能分析
我们使用所提出的框架在 nuScenes 验证集上评估不同的传感器融合策略,并在表 I 和表 II 中分别呈现最终的基准测试结果。在表 I 中,与纯视觉中心方法相比,包含来自环视雷达的稀疏 3D 点云信息可使性能显著提高约 2%。此外,加入来自激光雷达的密集 3D 点云信息可进一步将性能提升至约 27% 的 mIoU。这些实验结果证实了利用多传感器融合大幅提高 3D 语义占有率预测任务性能的有效性。然而,在表 II 中,我们观察到加入雷达信息会导致性能显著下降。这可能是由于雷达的特性所导致的,雷达擅长测量远处的物体,但 Occ3D 的标签和可见性掩码限制了其优势。
为了进一步评估我们所提出的框架的有效性,我们在 SemanticKITTI 数据集上针对语义场景补全任务进行了对比实验。基准测试结果如表 III 所示。在我们的框架中整合相机和激光雷达数据可获得与纯视觉中心和纯激光雷达中心算法相比极具竞争力的性能。
F. 具有挑战性的场景性能分析
我们评估了各种传感器融合策略在具有挑战性的夜间和雨天场景中的性能,以深入了解传感器融合的特性和有效性。这些场景中的模型性能分别如表 IV 和表 V 所示。
在雨天场景中,尽管雷达传感器提供的 3D 点云较为稀疏,但我们观察到通过整合环视相机与雷达,可实现约 2% 的性能提升。此外,尽管激光雷达在雨天场景中存在反射问题,但由于其提供的密集 3D 点云,它仍可显著提升模型的整体性能。另一个原因是 nuScenes 数据集中缺乏严重的雨天条件。该数据集主要包含轻度至中度降雨场景,在这些场景中,激光雷达数据始终保持高质量。我们的模型通过整合所有三种传感器的信息实现了最佳性能。
在夜间场景中,由于环视相机对不同光照条件敏感,在光照较弱的环境中表现不佳,因此纯视觉中心方法在这些场景中的表现较差,这是意料之中的。我们发现,整合来自环视雷达的信息显著提升了模型的性能,带来了大约 1.2% 的提升。此外,加入雷达数据显著提高了预测动态物体的能力。特别是,对于汽车类别,观察到约 4% 的性能提升。此外,对于自行车和摩托车等小型动态物体,我们分别观察到约 0.7% 和 3% 的性能提升。这一进步与环视雷达的速度测量功能有关,表明这些特征与相机属性在我们的框架中得到了有效的整合。此外,加入激光雷达信息又额外带来了 4.7% 的性能提升。
G. 感知范围对模型性能的影响
多传感器融合提高了最终模型对光照和天气条件的鲁棒性,并扩展了模型的感知范围。我们以车辆中心为原点,R 为半径。通过调整 R 的长度,我们在不同场景下研究了不同感知范围下不同传感器融合策略的特性。我们在 R=[20m,25m,30m,35m,40m,45m,50m] 处评估了每个模型和不同的传感器融合策略。
图 5a 展示了在 nuScenes 验证集上,随着 R 的变化,每个模型的性能变化趋势。通过整合雷达和激光雷达数据,我们的模型在长距离处的性能显著提升。
图 5b 展示了在雨天场景中性能的变化趋势。OccFusion(C)的性能趋势与 OccFusion(C+R)相比显示出显著差异,且随着感知范围的扩大,这种差异变得更加明显。这一现象表明雷达传感器对纯视觉中心算法的增强作用。然而,当存在整合的激光雷达数据时,在雨天场景中,随着感知范围的扩大,雷达的贡献逐渐减少。
在夜间场景中,性能的变化趋势如图 5c 所示。它表明加入雷达信息显著增强了框架在长距离处感知物体的能力。有趣的是,随着感知范围的增加,OccFusion(C+L+R)和 OccFusion(C+L)之间的性能差异逐渐扩大,这与在雨天场景中观察到的趋势相反。
H. 框架定性分析
我们通过生成可视化结果并将其与最新 SOTA 算法的预测结果进行比较,进行了定性分析。整体可视化结果如图 6 所示。在图 6 的上部,我们展示了白天场景的预测结果;在中部,我们展示了雨天场景的预测结果;在底部,我们展示了夜间场景的预测结果。图中红色矩形突出了每种场景下每种预测结果的主要差异。
在白天场景中,如图 6 上部所示,仅依赖环视相机的算法无法准确预测远处的行人,要么无法识别他们,要么错误地估计了他们的数量。通过整合雷达信息与相机,这一问题已部分得到解决,这意味着雷达数据有助于模型扩展其感知范围。此外,激光雷达信息进一步增强了我们框架对 3D 世界的建模能力,尤其是在捕捉静态物体的几何形状和轮廓方面。
在雨天场景中,如图 6 中部所示,纯视觉中心算法在预测远处叠加物体方面存在困难。通过将雷达信息与相机合并,这一问题得到了缓解,但模型在预测悬挂在空中的人造建筑方面仍存在困难。这一问题可以通过加入激光雷达数据来解决。这一可视化结果表明,三种传感器融合不仅扩展了模型的感知范围,还增强了模型捕捉 3D 世界结构细节的能力。
在夜间场景中,环视相机对光照变化敏感,在光照较弱的环境中表现不佳。因此,纯视觉中心算法在这些场景中的表现较差,如图 6 底部所示。令人惊讶的是,我们发现即使仅加入雷达数据(它提供稀疏的 3D 点云),模型在预测静态物体(如植被和人造结构)方面也显著提升。此外,当加入激光雷达数据时,模型的预测结果进一步得到显著改善。值得注意的是,即使在加入激光雷达数据后,OccFusion(C+L+R)模型仍未能正确分类附近的人行道。这一现象可以归因于激光雷达传感器未能提供丰富的语义信息,在这种特定场景中,相机的语义信息也显著降低。
I. 框架训练收敛速度研究
在训练阶段,我们观察到不同的传感器融合策略不仅影响框架的最终性能,还显著影响其整体训练时长。如图 7 所示,OccFusion(C),一种纯视觉中心方法,需要 13 个训练周期才能达到最佳性能。相比之下,OccFusion(C+R),整合了雷达信息与相机,将总训练周期减少到 9 个,并实现了大约 2% 的性能提升。将激光雷达信息与相机相结合,进一步将训练周期减少到 6 个,从而带来了 6% 的性能提升。这一现象突显了传感器融合的优势,它不仅提升了最终框架的性能,还加快了其在训练过程中的收敛速度。
J. 框架效率研究
我们评估了框架中实施的每种传感器融合策略的效率,并将其与其他 SOTA 算法进行了比较。表 VI 提供了有关框架效率的详细信息。通过整合更多的传感器信息,我们的框架变得更加复杂,需要更多的可训练参数。因此,这导致了在推理过程中 GPU 内存占用增加以及延迟更高。
方法 | 延迟(ms)(↓) | 内存(GB)(↓) | 参数 |
---|---|---|---|
SurroundOcc [7] | 472 | 5.98 | 180.51M |
InverseMatrixVT3D [14] | 447 | 4.41 | 67.18M |
OccFusion(C+R) | 588 | 5.56 | 92.71M |
OccFusion(C+L) | 591 | 5.56 | 92.71M |
OccFusion(C+L+R) | 601 | 5.78 | 114.97M |
表 VI:不同方法的模型效率比较。实验在单个 A10 上进行,使用六个多相机图像、激光雷达和雷达数据。对于输入图像分辨率,所有方法均采用 1600×900。↓:越低越好。
K. 框架消融研究
- 多尺度机制的消融研究:我们研究了多级监督和多尺度粗到细特征细化结构对整体性能的影响。消融研究结果如表 VII 所示。多尺度机制对于提升最终模型的 mIoU 性能的重要性显而易见。采用多级监督方法使得更深层能够捕获更一般的语义信息。此外,多尺度粗到细的细化结构有助于将语义信息从深层传递到浅层,从而细化最高层的特征,该特征富含空间信息。从消融研究中得出的另一个关键发现是多尺度粗到细结构与多级监督机制之间存在强烈的关联。这种结构需要每个尺度的监督信号,以便框架能够捕获相关的语义信息并将其传递到更高层。如果没有这些监督信号,这一设计方面可能会阻碍模型的收敛,并导致最终性能不佳。
多尺度结构 | 多级监督 | 参数 | mIoU↑ | IoU↑ |
---|---|---|---|---|
√ | √ | 114.97M | 23.00% | 43.90% |
√ | × | 114.97M | 17.79% | 43.78% |
× | × | 54.99M | 19.47% | 42.46% |
表 VII:框架中多尺度机制的消融研究结果。多尺度结构:多尺度粗到细细化结构;多级监督:多级监督机制。↑:越高越好。
- 动态融合 3D/2D 的消融研究:本研究考察了动态融合 3D/2D 中各个子模块对最终模型性能的影响。移除 BEV 特征后,禁用全局 - 局部注意力融合模块,模型的 mIoU 性能下降了大约 6.7%。这一观察结果表明,BEV 特征作为一个激励信号发挥着关键作用,促进与 3D 特征体积的交互,从而实现快速收敛并捕获 3D 几何和语义信息。通过移除动态融合模块中的 SENet3D/2D 块,我们的模型仅通过特征通道连接来实现特征融合,没有任何特征放大操作。我们的模型经历了显著的 mIoU 性能下降,因为重要特征未被放大。
BEV | SENet2D | SENet3D | mIoU↑ | IoU↑ |
---|---|---|---|---|
√ | √ | √ | 23.00% | 43.90% |
× | √ | √ | 16.37% | 43.17% |
√ | √ | × | 19.01% | 43.10% |
√ | × | √ | 19.94% | 43.47% |
表 VIII:框架中动态融合 3D/2D 模块的消融研究结果。BEV:合并后的 BEV 特征;SENet2D:用于融合多模态 BEV 特征的 SENet 2D 部分;SENet3D:用于融合多模态 3D 特征体积的 SENet 3D 部分。↑:越高越好。
V. 结论
本研究提出了 OccFusion,这是一个创新的框架,它整合了环视相机、雷达和激光雷达来预测 3D 语义占有率。我们的框架通过动态融合 3D/2D 模块来整合不同模态的特征,生成一个全面的 3D 体积。在本研究中,我们考察了包括相机 + 雷达、相机 + 激光雷达以及相机 + 激光雷达 + 雷达在内的融合策略。通过对 nuScenes 和 SemanticKITTI 验证集以及专注于夜间和雨天场景的子集进行综合评估,我们发现,即使是来自环视雷达的稀疏 3D 点云,也能显著增强基于视觉的方法。此外,来自激光雷达的密集 3D 点云进一步提升了 3D 占有率预测的性能。此外,我们还探讨了感知范围如何影响不同感知范围下每种传感器融合策略的性能趋势。我们的研究结果表明,整合环视雷达和激光雷达可以显著增强模型的长距离感知能力以及对恶劣天气条件的鲁棒性。我们的实验总体上展示了 OccFusion 框架的有效性,同时保留了每种传感器的独特优势。