DAOcc
约 9615 字大约 32 分钟
2025-06-23
摘要
多传感器融合显著提升了三维语义占据预测的精度与鲁棒性,这在自动驾驶和机器人领域中极为关键。然而,大多数现有方法依赖于高分辨率图像和复杂网络来实现最优性能,限制了其在实际场景中的应用。此外,多数多传感器融合方法主要关注改进融合特征,却忽视了对这些特征监督策略的探索。鉴于此,我们提出了DAOcc,一种新颖的多模态占据预测框架,借助三维目标检测监督来辅助实现卓越性能,同时运用利于部署的图像特征提取网络和实用的输入图像分辨率。此外,我们引入了鸟瞰图视野范围扩展策略(BEV View Range Extension),以减轻降低图像分辨率带来的不利影响。实验结果表明,DAOcc在Occ3D - nuScenes和SurroundOcc基准测试中取得了新的最高水平性能,仅使用ResNet50和256×704输入图像分辨率,就显著超越了其他方法。代码将发布于https://github.com/AlphaPlusTT/DAOcc。
1. Intro
三维语义占据预测(occ)在自动驾驶[4,50,54]和机器人系统[15,45,47,48]中是一项关键任务,准确理解周围环境对于安全高效的导航至关重要。可靠的占据预测不仅需要准确的空间数据,还需要全面理解环境的上下文。实现这一目标需要整合来自多个传感器的数据。激光雷达(LiDAR)提供了精确的三维空间信息,用于障碍物检测,而摄像头则捕捉颜色和纹理等视觉细节,以便更深入地理解场景。通过结合这些互补的数据源,占据预测的准确性和鲁棒性得到了显著增强。
在现有的多模态[37,38,43,49,52,60,61]或基于图像的[4,13,24,42,44,50,51,53,57]occ任务的研究工作中,实现卓越性能通常需要使用极高分辨率的图像和复杂的图像特征提取网络(见表1和表3),例如使用900×1600分辨率的输入图像以及配备可变形卷积模块(DCN)[8,66]的ResNet101[12]。然而,这种方法极大地限制了顶级性能occ模型在边缘设备上的部署,因为其计算需求过高。与图像相比,点云要稀疏得多。例如,在nuScenes[3]数据集的训练集中,单帧点云中的最大点数仅为34,880,这仅相当于900×1600分辨率图像像素数量的2.4%。因此,如何在多模态occ框架内有效利用点云数据仍有待进一步探索。
此外,我们观察到,大多数关于多模态occ的研究工作[37,43,49,52,60,61]主要集中在获取更有效的融合特征上,而对于这些融合特征的监督形式的探索则相对不足。尽管CO - Occ[38]引入了基于隐式体绘制的正则化来监督融合特征,但它仅利用了原始点云数据中的距离真值,未能充分利用点云特征中固有的几何和结构信息。相比之下,基于激光雷达的三维检测器[7,34,59]有效地利用了这些信息,在三维目标检测任务中取得了比基于图像的三维检测器[17,28 - 30]显著更好的性能。这一观察结果提示了一个新的研究方向:如何更好地在多模态occ任务中利用点云数据的独特优势。
基于这些观察结果,我们提出了DAOcc,这是一种新颖的多模态occ框架,借助三维目标检测来辅助实现卓越性能,同时运用利于部署的图像编码器和实用的输入图像分辨率。在构建DAOcc的基线网络时,我们采用了最简单直接的方法。
- 首先,我们分别使用二维图像编码器和三维稀疏卷积[55]来提取图像和点云的特征。鉴于从单目图像中估计深度是一个病态问题[14,21],且可变形注意力模块过于复杂[11],我们采用了一种类似于Harley等人的简单方法[10],将图像特征从二维空间转换到三维体空间。
- 具体来说,我们将一组预定义的三维点投影到二维图像特征平面上,并使用双线性插值来采样这些点对应的二维图像特征。
- 接下来,我们采用一种直接的融合策略,通过连接图像和点云特征,然后应用二维卷积来获得统一的鸟瞰图(BEV)特征。
- 最后,我们应用一个具有残差结构的全卷积BEV编码器来进一步融合统一的BEV特征,随后利用通道到高度[57]操作将通道维度转换为高度维度。
为了充分利用点云特征中固有的几何和结构信息,我们在基线模型的统一BEV特征上增加了三维目标检测监督,从而增强了统一BEV特征的可区分性。这使得统一BEV特征对目标边界更加敏感,并使我们的方法避免了需要复杂的损失函数组合,如图1所示。此外,鉴于点云的稀疏性,我们扩展了点云的处理范围,并采用稀疏卷积[55]来减轻由此扩展带来的计算开销。我们称这种方法为 BVRE (BEV视野范围扩展)。 BVRE 提供了一个更大的BEV视野范围,提供了更多的上下文信息,并减轻了降低图像分辨率带来的不利影响。值得注意的是,三维目标检测监督仅在训练期间作为辅助分支使用,可以在occ任务的推理过程中移除。
为了验证所提出的DAOcc的效率和有效性,我们进行了广泛的实验。结果表明,DAOcc在Occ3D - nuScenes[44]和SurroundOcc[51]基准测试中建立了新的最高水平性能,仅使用ResNet50[12]和256×704输入图像分辨率。具体而言,在Occ3D - nuScenes验证集上,当使用相机掩码进行训练时,DAOcc实现了53.82的mIoU,而在不使用相机掩码的情况下,实现了48.2的RayIoU。此外,在SurroundOcc验证集上,DAOcc实现了45.0的IoU和30.5的mIoU。
总之,我们的贡献总结如下:
- 我们设计了一个简单而高效的多模态三维语义占据预测基线,消除了在特征融合过程中对复杂可变形注意力[23]模块以及图像深度估计的需求。
- 我们提出了DAOcc,这是一种新颖的多模态占据预测框架,借助三维目标检测来辅助实现卓越性能,同时运用利于部署的图像编码器和实用的输入图像分辨率。
- 我们引入了BEV视野范围扩展策略,该策略提供了一个更大的BEV视野范围,提供了更多的上下文信息,并减轻了降低图像分辨率带来的不利影响。
- 我们在Occ3D - nuScenes数据集和SurroundOcc数据集上建立了新的最高水平性能,仅使用ResNet50和256×704输入图像分辨率。
2. 相关工作
3D Occupancy Prediction
三维占据预测旨在映射环境中所有被占据的体素,并为其分配语义标签,从而提供更细粒度的感知结果。
基于摄像头的三维占据预测因其成本效益高而受到广泛关注。早期的研究工作[4,16,62]缺乏密集的周围占据监督,导致占据预测结果稀疏。
为了获得密集的占据预测,OpenOccupancy[49]、SurroundOcc[51]和Occ3D[44]开发了用于生成密集占据标签的方法,并在其各自提出的数据集上建立了基准。值得注意的是,SurroundOcc并没有引入人工注释。这些基准的出现进一步推动了三维占据预测的发展。
- PanoOcc[50]采用体素查询和从粗到细的方法来学习统一的占据表示。FlashOcc[57]使用鸟瞰图特征和二维卷积实现高效的特征提取,并提出了通道到高度的变换,将鸟瞰图的输出提升到三维空间。
- SparseOcc[31]利用稀疏体素解码器重建场景的稀疏几何结构,并使用稀疏查询来预测掩码和标签。
然而,所有基于摄像头的方法不可避免地需要应对恶劣光照和天气条件的挑战,许多工作由于单目深度估计问题[14,21]本质上是病态的,因此缺乏鲁棒性。
尽管基于摄像头的占据预测已经取得了有希望的结果,但多模态方法在实际应用中,特别是在自动驾驶和机器人领域,提供了更大的可靠性和鲁棒性。
- 由于摄像头容易受到光照和天气变化的影响,OccFusion[37]通过整合激光雷达和雷达的特征来提高占据网络的准确性和鲁棒性。在同期工作中,OccFusion[61]将预处理的更密集、更均匀的点云投影到图像平面上,建立映射关系,并执行可变形注意力[67]来融合相应的特征。尽管OccFusion[61]避免了深度估计,但使用可变形注意力会带来更大的计算负担[11]。
- Hydra[52]将FB - BEV[25]扩展到摄像头 - 雷达融合领域,并借助雷达特征提高深度估计的准确性。
- Co - Occ[38]采用K最近邻搜索来选择邻近的摄像头特征,以增强相应的激光雷达特征,并提出了基于隐式体绘制的正则化。然而,这种正则化仅利用了点云的距离真值,并没有充分利用其固有的几何信息。
- EFFOcc[43]提出了一个高效轻量级的多模态三维占据网络,但它严重依赖激光雷达分支的三维目标检测预训练来获得最佳结果。然而,这种依赖限制了网络结构设计的灵活性。具体来说,为了最大化利用三维检测预训练的好处,EFFOcc不得不调整其网络架构,使其更接近成熟的激光雷达检测网络。
在本工作中,我们引入了一个简单而高效的多模态占据预测网络,消除了在特征融合过程中对复杂可变形注意力[23]以及图像深度估计的需求,并且不需要激光雷达分支的三维目标检测预训练。此外,为了充分利用点云特征中固有的几何信息,我们将三维目标检测作为辅助监督添加到融合特征上。
Multi-Modal 3D Object Detection
最近的多模态三维目标检测方法[6,19,20,33,46]主要关注学习有效的鸟瞰图特征表示。
- TransFusion[1]提出了一个基于两阶段变换器 - 解码器的检测头,并应用交叉注意力来获取每个目标查询的图像特征。
- BEVFusion[33]提出了一个高效通用的多任务多传感器融合框架,该框架在共享的鸟瞰图表示空间中统一多模态特征,并引入了一个专用内核来加速鸟瞰图池化操作。在同期工作中,BEVFusion[26]将激光雷达 - 摄像头融合分解为两个可以独立输出感知结果的流,并在两个流之后执行特征融合。
- DAL[14]遵循“检测即标记”的概念,解耦了融合特征在分类和回归中的使用。具体来说,它在分类中使用融合特征,而在回归中则仅使用点云特征。
在本工作中,我们引入了BEVFusion[33]的简单而有效的特征融合方法,并将三维目标检测作为训练中的辅助分支。
3. 提出的方法
3.1 总体框架
注
图2. 我们提出的DAOcc的概述。我们首先引入 BVRE 策略,通过从鸟瞰图(BEV)视角扩大感知范围来丰富空间上下文信息。然后通过上图所示的多模态占据预测网络进行特征提取。此外,为了充分利用点云特征中固有的几何和结构信息,我们将三维目标检测作为辅助监督。
我们的目的是在多模态占据预测框架内充分利用点云特征中固有的几何和结构信息。以往的多模态方法未能充分挖掘这些信息,只能通过更复杂的图像编码器和更大的输入图像分辨率来实现卓越性能。
本文提出的DAOcc的整体框架如图2所示。
- DAOcc以环绕图像及其相应的时间同步点云作为输入,分别通过摄像头编码器和激光雷达编码器获取图像和点云的特征。
- 二维图像特征通过投影和插值转换到三维体素空间。
- 随后,三维空间中的图像和点云特征沿高度维度压缩,生成对应的鸟瞰图(BEV)特征。
- 接着,通过简单的二维卷积进行特征融合,全卷积BEV编码器对这些融合后的特征进行编码,以获得最终的BEV表示。
- 最后,占据头利用通道到高度操作[57]恢复BEV表示的高度,从而得到可用于占据预测的最终三维体素空间表示。
这些模块共同构成了DAOcc的基本网络架构,将在3.2节中详细阐述。
在基本网络的基础上,我们引入了BEV视野范围扩展策略( BVRE ,见3.3节),以补偿因降低图像分辨率而产生的信息损失。该策略旨在通过从鸟瞰图视角扩大感知范围来丰富空间上下文语义信息。
此外,为了充分利用点云特征中固有的几何和结构信息,我们将三维目标检测作为辅助监督(见3.4节)。这种辅助监督不仅增强了融合特征的可区分性,还使我们提出的框架的整体训练损失(见3.5节)非常简洁。
3.2 基础网络
激光雷达编码器
将原始激光雷达点嵌入三维体素化特征的方法与SECOND[55]一致。我们首先对点云进行体素化,每个体素最多保留10个点,从而得到一个大小为 D×H×W 的三维体素网格。通过平均每个体素内所有点的特征来获得该体素的特征表示。接下来,我们应用三维稀疏卷积[55]对这些体素特征进行编码,生成空间压缩后的激光雷达体素特征 Fg∈RC×D/16×H/8×W/8 ,其中 C 表示特征维度。
摄像头编码器
对于图像特征提取,以环绕图像作为输入,我们首先使用ResNet50[12]作为骨干网络来提取多尺度特征,记为 Fms={F1/8,F1/16,F1/32},其中F1/x 表示经过x倍下采样后提取的特征。然后,我们采用特征金字塔网络(FPN)[27]作为颈部来聚合这些多尺度特征。输出的特征图Fcp具有 Np×Cp×Hp/8×Wp/8 的形状,其中 Hp 和 Wp 表示图像的输入分辨率,Cp 和 Np分别表示通道数和环绕图像的数量。
投影和插值
对于基于图像的占据预测,将图像特征从二维图像平面转换到三维体空间是一个关键步骤。大多数现有方法采用单目深度估计[13,43,49,57]或可变形注意力[44,50,51,61]。然而,单目深度估计本质上是一个病态问题[14,21],而可变形注意力会带来巨大的计算负担[11]。
鉴于这些限制,我们采用了一种简单而有效的投影和采样方法,类似于 Harley 等人的方法[10]。具体来说,
- 我们首先预定义一个形状为 Z×8H×8W 的三维体素网格,其中Z表示沿z轴的体素数量。将每个体素的中心点投影到图像特征平面上,并仅保留同时位于图像特征平面和摄像头视野范围内的点。
- 接下来,对保留点的亚像素投影位置进行双线性插值,以生成每个体素对应的图像特征。对于位于环绕摄像头重叠视野区域内的体素,我们对来自两个相应摄像头的图像特征进行平均,以获得每个体素的最终特征。
输出的摄像头体素特征可以表示为 Fc∈RC×Z×8H×8W。
鸟瞰图编码器
给定融合后的特征 Ff,我们通过三个ResNet18[12]块对其进行进一步细化,分别从第一个和最后一个块中提取两个特征图Ff0和Ff2。然后,类似于FPN[27],我们对Ff2进行双线性上采样,并将其与Ff0沿特征维度连接起来。最后,我们使用一个卷积块融合不同尺度的特征。输出的细化后的BEV特征可以表示为 Fr∈RCr×8H×8W 。
3.3 BEV视野范围扩展( BVRE )

注
图3. 分辨率增加对计算成本的影响比较。对于激光雷达编码器,点云在z轴上的处理范围在所有实验中均为 - 5m到3m。图中示例选取了验证集中点数最多的点云,并汇总了10帧的数据。
如图3所示,由于点云的稀疏性,扩展点云处理范围所带来的计算成本增加与提高图像分辨率相比微不足道。因此,我们扩展点云范围以提供更多的三维空间上下文,以补偿因降低图像分辨率而丢失的信息。然而,随意设置点云的XY范围或体素分辨率可能会导致BEV特征与占据真值之间出现对齐错误。
假设占据网格的体素分辨率为 reso,扩展后的点云数据在BEV中覆盖一个矩形区域,其X范围从 - x到x,Y范围从 - y到y,且具有 resp 的体素分辨率。因此,x和y必须是 reso 的整数倍,且 reso 也必须是 resp 的整数倍。否则,BEV表示中沿z轴的每个特征向量所表示的空间分辨率将不等于 reso 。为了避免复杂的手动设计,我们采用坐标变换和插值,如图2中紫色部分所示,可以表示为:
Focc=GridSample(Fr,Norm(To2l×Po))
其中,Po是占据注释坐标系XY平面上预定义的一组点,每个点位于XY平面上占据网格的中心。To2l是从占据坐标到激光雷达坐标的变换矩阵。Norm函数的作用是将坐标值缩放到 - 1到1的范围内。
3.4 可分离的辅助检测头
为了充分利用点云特征中固有的几何和结构信息,我们采用一个可分离的辅助检测头来进一步监督特征融合过程,从而增强融合特征中关于目标边界和场景结构的信息。同时,辅助检测任务与占据预测任务相关,因此在优化过程中提供了多重正则化效果。为了简化设计,我们使用CenterPoint[56]中引入的一阶段CenterHead作为辅助检测头。给定细化后的BEV特征Fr,我们利用两个卷积层从BEV视角生成一个关键点热图 HM=pxy ,并应用高斯核[18,64]将所有真实三维框的中心点映射到目标热图T上。训练目标基于高斯热图的焦点损失[41],可以表示为:
Lcls=−N1ij∑{(1−pij)αlog(pij)(1−yij)βpijαlog(1−pij)if yij=1otherwise
其中,pij 和 yij 分别表示热图在位置 (i,j) 处的预测分数和真实值。N 是点云中的目标数量,α 和 β 是焦点损失[41]的超参数。同样地,对于三维边界框中心点的偏移量以及高于地面的高度、三维尺寸和偏航角,我们分别使用单独的卷积层来预测每个参数,然后应用 L1 损失进行监督:
Lloc=N1k=1∑N∣s^k−sk∣
其中,s^k 和 sk 分别表示预测值和真实值。上述两项任务使网络能够更精确地感知目标边界,进而有助于实现更精确的占据预测。辅助检测头的总损失可以表示为:
Ldet=Lcls+λlLloc
3.5 总体目标函数
大多数现有方法依赖于复杂的损失函数组合[24,37,38,42,43,49,50,53,58,61],例如结合几种或全部的焦点损失[41]、场景类别亲和力损失[4]、Dice损失、Lovász - Softmax损失[2]、深度损失[22]等,以实现预期性能。相比之下,我们的方法利用一个可分离的三维目标检测分支作为辅助监督,并且只需要一个简单的交叉熵损失Lce用于占据预测。我们框架的总损失可以定义为:
Ltotal=Lce+λLdet
4. 实验
4.1 数据集和评估指标
Occ3D-nuScenes[44]是一个大规模的三维占据预测基准数据集,包含700个场景用于训练和150个场景用于验证。每个场景持续20秒,以2Hz的频率提供注释。该数据集涵盖了在自我坐标系中X和Y方向的[-40m, 40m]以及沿z轴的[-1m, 5.4m]的感知范围,该范围被离散化为体素,每个体素的大小为[0.4m, 0.4m, 0.4m]。
注
表1. Occ3D - nuScenes验证集上的三维占据预测性能。在训练阶段使用了相机可见掩码。(xf)表示使用x帧进行时间融合。C、L和R分别表示相机、激光雷达和雷达。图像大小和2D骨干网络分别表示输入图像分辨率和图像特征提取器。最佳结果以粗体显示。
注
表2. Occ3D - nuScenes验证集上的三维占据预测性能。在训练阶段未使用相机可见掩码。(xf)表示使用x帧进行时间融合。C和L分别表示相机和激光雷达。最佳结果以粗体显示。
注
表3. SurroundOcc验证集上的三维占据预测性能。C、L和R分别表示相机、激光雷达和雷达。最佳结果以粗体显示。
每个被占据的体素被分配了17个语义标签之一,包括16个常见类别和一个标记为“其他”的通用目标类别。该数据集包括由六个环绕摄像头捕获的RGB图像和激光雷达点云,为自动驾驶中的三维场景理解提供了密集的体素级注释。此外,该数据集还提供了激光雷达和相机模式的可见性掩码,可用于训练目的。
SurroundOcc[51]是一个自动生成的占据预测数据集,不需要额外的人工注释。它基于nuScenes[3]构建,并利用现有的三维检测和三维语义分割标签生成密集的占据真值。该数据集使用nuScenes训练集来训练模型,并使用nuScenes验证集进行评估。占据预测范围设置为激光雷达坐标系中X和Y轴的[-50m, 50m]以及z轴的[-5m, 3m],最终输出的三维占据网格的形状为200×200×16,每个体素的大小为[0.5m, 0.5m, 0.5m]。
评估指标:遵循先前的方法,当使用Occ3D - nuScenes提供的相机可见掩码训练模型时,我们使用平均交并比(mIoU)作为评估指标,以确保与现有方法的公平比较。当在训练阶段排除相机可见掩码时,我们额外报告一个语义分割指标,即射线交并比(RayIoU)[31],这是最近引入的。对于SurroundOcc数据集,我们使用IoU和mIoU报告语义分割性能。在这里,IoU被定义为忽略它们的语义类别的占据体素的交并比,并且它被用作场景补全(SC)任务的评估指标。
4.2 实现细节
我们使用在nuImages[3]上预训练的ResNet - 50[12]作为我们的图像骨干网络,并将输入图像分辨率调整为256×704。在激光雷达分支中,我们将来自10个相邻时间戳的激光雷达扫描聚合为输入,并从头开始训练。对输入图像应用数据增强技术,如缩放、旋转和翻转,我们还在BEV空间中执行随机翻转。损失权重配置为λl=0.25和λ=0.01。我们采用AdamW优化器[35],并配备余弦退火学习率调度器,包含预热阶段,并将初始学习率设置为2e - 4。除非进行消融实验,否则我们使用CBGS[65]训练6个epoch的DAOcc,输入点云范围设置为[-54.0, - 54.0, - 5.0, 54.0, 54.0, 3.0],体素大小设置为[0.075, 0.075, 0.2]。所有模型都在8个NVIDIA RTX4090 GPU上进行训练,批量大小为4。此外,如果在训练期间未使用相机可见掩码,我们随机丢弃80%的空体素,与Zhao等人的方法一致[63]。未使用时间信息融合、指数移动平均(EMA)用于权重参数和测试时增强。
4.3 与最新方法的比较
在Occ3D - nuScenes上使用相机掩码进行比较。如表1所示,我们将我们提出的DAOcc与Occ3D - nuScenes数据集上的基于图像和多模态方法进行了比较。所有结果均由作者直接提供或基于其官方代码实现。我们的DAOcc建立了一个新的最先进性能,在使用ResNet50[12]和256×704输入图像分辨率的情况下,取得了53.82的mIoU。与最新的多模态方法EFFOcc[43]相比,DAOcc提高了1.2的mIoU。值得注意的是,EFFOcc中的图像特征提取网络Swin - B[32]的参数数量大约是ResNet50的3倍,且EFFOcc使用了更大的输入图像分辨率512×1408。这突出了我们的方法能够从点云数据中挖掘更多信息的能力。此外,为了获得最佳结果,EFFOcc需要对激光雷达分支进行三维目标检测预训练,这导致了大约3mIoU的提升。相比之下,DAOcc不需要对激光雷达分支进行预训练,而是将三维目标检测作为辅助分支无缝集成到多模态占据预测框架中,简化了模型训练过程并实现了更好的性能。
此外,我们比较了模型的复杂性,如表4所示。与两种顶级多模态方法RadOcc[60]和EFFOcc[43]以及顶级基于图像的方法FB - Occ[24]相比,我们提出的DAOcc的参数数量仅约为其一半,但实现了显著更好的性能(分别比RadOcc、EFFOcc和FB - Occ高出4.44、1.2和4.92mIoU)。
注
表4. 复杂性比较。C和L分别表示相机和激光雷达。3D骨干网络表示用于点云特征提取的网络。在Occ3D - nuScenes验证集上使用相机掩码进行训练的性能mIoU。
在Occ3D - nuScenes上不使用相机掩码进行比较。据我们所知,没有现有的多模态占据预测工作使用RayIoU指标来报告模型性能,因此我们主要与基于图像的方法进行比较。如表2所示,得益于有效利用多模态输入,尤其是点云数据,我们的DAOcc实现了48.2的RayIoU,并且显著优于基于图像的方法,尽管其中许多方法采用了多帧时间融合。值得注意的是,一些基于图像的方法,如Panoptic - FlashOcc和FB - Occ[24],采用了显式深度监督[22],并利用从点云数据中导出的深度信息来监督图像的单目深度估计训练,因此这些方法也可以被视为在训练阶段的多模态。
在SurroundOcc上进行比较。表3展示了在SurroundOcc验证集上的定量比较,展示了我们的DAOcc与其他方法的性能。利用相机和激光雷达输入,DAOcc比OccFusion[37]实现了3.2mIoU的显著提升,OccFusion还结合了雷达数据。值得注意的是,OccFusion使用了高分辨率输入900×1600的R101 - DCN,而我们的方法采用了更轻量级的Resnet50骨干网络和较低的输入分辨率256×704。这进一步证明了我们提出的方法的有效性和效率。
4.4 消融研究
在Occ3D - nuScenes的验证集上进行消融研究,在模型训练期间使用了相机可见掩码。除非另有说明,本节中呈现的所有实验均训练了15个epoch,不使用CBGS[65]。
BEV视野范围扩展( BVRE )的有效性。我们提出了 BVRE 策略,通过从鸟瞰图(BEV)视角扩大感知范围来丰富空间上下文信息。如表5所示,比较(a)和(b)表明,在保持相同体素大小的情况下,将BEV范围从[-41.4m, 41.4m]扩展到[-45.6m, 45.6m]可以获得0.22mIoU的性能提升。此外,比较(a)和(e)表明,进一步将BEV范围扩展到[-54.0m, 54.0m]可将性能提升0.5mIoU。这一观察结果验证了在更大BEV范围内空间上下文信息的价值。
此外,通过比较(b)和(c),我们可以发现体素大小对模型性能有很大的影响。为了实现更好的性能,我们在DAOcc中采用了设置(e)。
注
表5. 不同BEV范围和体素大小之间的性能比较。在所有实验中,体素高度为0.2m。
辅助检测头的消融。为了充分利用点云特征中固有的几何和结构信息,我们将三维目标检测作为辅助监督。如表6所示,通过添加辅助三维目标检测监督,当在训练期间使用相机可见掩码时,我们可以实现1.56mIoU的提升;当不使用掩码时,可以实现2.58mIoU的提升。这表明添加检测分支可以显著增强多模态特征的可区分性。此外,我们报告了从三维目标检测监督中受益最多的四个类别。值得注意的是,所有四个类别都是前景目标,这进一步验证了我们方法实现性能提升的有效性和合理性。具体来说,当在训练期间使用相机可见掩码时,添加辅助检测分支分别使自行车、摩托车、行人和交通锥的性能提升了15.75mIoU、6.59mIoU、2.83mIoU和5.33mIoU。相反,当不使用相机可见掩码进行训练时,这些类别的性能分别提升了17.57mIoU、10.67mIoU、9.64mIoU和6.48mIoU。

注
表6. 辅助检测头的消融研究。ADH表示辅助检测头。
重要
相机可见掩码(camera visible mask)
相机可见掩码的主要作用是标记出哪些区域是相机能够看到的,哪些区域是相机无法看到的。在三维占据预测任务中,相机的视野是有限的,某些区域可能由于遮挡或其他原因而无法被相机捕捉到。通过使用相机可见掩码,模型可以忽略这些不可见的区域,从而避免在这些区域进行不必要的预测,提高模型的准确性和效率。
5. 结论
在本文中,我们提出了一个新颖的多模态占据预测框架DAOcc,旨在利用利于部署的图像骨干网络和实用的输入图像分辨率实现卓越性能。DAOcc通过在多模态框架内充分利用点云数据的独特优势来实现这一目标,这些优势在以往的方法中大多被忽视。在Occ3D - nuScenes和SurroundOcc数据集上进行的广泛实验表明,与现有方法相比,DAOcc具有优越性。我们相信DAOcc具有实际应用潜力,并可能激发未来在多模态占据预测领域的研究。
附加材料
方法 | 模态 | GPU类型 | FPS | mIoU |
---|---|---|---|---|
FlashOcc(2f)[57] | C | A100-P | 0.9 | 43.52 |
RadOcc[60] | C+L | - | 0.3 | 49.38 |
EFFOcc[43] | C+L | RTX A6000 | 1.8 | 52.62 |
DAOcc(ours) | C+L | RTX 3070Ti | 2.7 | 53.82 |
表7. 不同方法的运行时间比较。(xf)表示使用x帧进行时间融合。C和L分别表示相机和激光雷达。DAOcc的FPS是在PyTorch fp32后端上测量的。在Occ3D - nuScenes验证集上使用相机掩码进行训练的性能mIoU。
6. 运行时间比较
我们比较了不同方法的运行时间,如表7所示。FPS是通过在表中列出的相应GPU类型上进行测试获得的。由于RadOcc的源代码不可用,且EFFOcc尚未发布其实现,我们依赖于它们各自论文中报告的运行时间作为基准。值得注意的是,RTX 3070 Ti的计算能力明显低于RTX A6000和A100。结果表明,我们提出的DAOcc在保持最快运行速度的同时,实现了最佳性能。
7. 达到最终性能的消融实验
除了第4.4节中呈现的消融研究外,本节还提供了进一步的消融实验。表8展示了有助于最终性能的消融实验结果。首先,将训练时间从15个epoch延长至24个epoch,我们可以观察到0.57mIoU的提升。接下来,使用CBGS[65]又带来了额外的0.43mIoU提升。由于CBGS涉及重采样,这会增加每个epoch的样本数量,因此我们将训练限制在6个epoch,以保持与不使用CBGS的24个epoch相当的总训练时间,以便进行公平比较。
CBGS | EP6 | EP15 | EP24 | mIoU |
---|---|---|---|---|
52.82 | 53.39 | 53.82 |
表8. 达到最终性能的消融实验。EP6、EP15和EP24分别表示训练6个、15个和24个epoch。
8. 检测性能
由于我们提出的DAOcc将一个辅助三维目标检测分支整合到占据预测框架中,我们还评估了这个辅助分支的性能。辅助检测分支旨在识别10个目标类别,包括汽车、卡车、公共汽车、拖车、建筑车辆、行人、摩托车、自行车、交通锥和障碍物。所有实验均使用nuScenes[3]数据集进行辅助三维目标检测训练,并使用nuScenes基准提供的平均精度(mAP)和nuScenes检测得分(NDS)指标来评估结果。
如表9所示,当DAOcc在Occ3D - nuScenes[44]数据集上进行训练(用于占据预测)且在训练期间使用相机可见掩码时,辅助检测分支实现了59.4的mAP和64.3的NDS。值得注意的是,当不使用相机可见掩码时,观察到的性能相当。然而,当使用SurroundOcc[51]数据集进行占据预测训练时,辅助检测分支实现了较低的性能,分别为53.6的mAP和60.2的NDS。我们将这种性能差距归因于SurroundOcc数据集是自动生成的,没有经过人工校准,可能会引入更多噪声,从而对模型收敛产生负面影响。
数据集 | 相机可见掩码 | mIoU | mAP | NDS | 汽车 | 卡车 | 公共汽车 | 交通灯 | 建筑车辆 | 行人 | 摩托车 | 自行车 | 交通锥 | 障碍物 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Occ3D - nuScenes[44] | ✓ | 53.8 | 59.4 | 64.3 | 85.7 | 57.2 | 65.8 | 33.1 | 22.8 | 75.5 | 68.3 | 47.3 | 70.2 | 68.2 |
Occ3D - nuScenes[44] | ✗ | 47.9 | 59.6 | 64.2 | 85.4 | 55.0 | 64.6 | 34.1 | 23.1 | 76.3 | 67.0 | 50.7 | 70.8 | 69.0 |
SurroundOcc[51] | - | 30.5 | 53.6 | 60.2 | 81.9 | 42.7 | 56.0 | 26.3 | 19.7 | 72.6 | 57.7 | 43.8 | 66.7 | 68.1 |
表9. DAOcc的三维占据预测和检测性能。
9. 可视化
图4展示了在Occ3D - nuScenes验证集上DAOcc的可视化结果。在模型训练和可视化期间未使用相机可见掩码。结果表明,DAOcc能够相对完整地预测场景,并以精细的细节准确地重现场景。
图4. 在Occ3D - nuScenes验证集上的定性可视化。在模型训练和可视化期间未使用相机可见掩码。