Occ 综述-模态融合视角

约 18299 字大约 61 分钟

occ

2025-04-24

自动驾驶中的3D占用感知：信息融合视角

2024

https://github.com/HuaiyuanXu/3D-Occupancy-Perception

https://arxiv.org/abs/2405.05173

摘要

3D占用感知技术旨在观察和理解自动驾驶车辆的密集3D环境。由于其全面的感知能力，该技术正成为自动驾驶感知系统的一个趋势，并引起了工业界和学术界的广泛关注。与传统的鸟瞰图（BEV）感知类似，3D占用感知具有多源输入的性质，并且需要进行信息融合。然而，不同之处在于它捕捉了2D BEV忽略的垂直结构。在本综述中，我们回顾了关于3D占用感知的最新研究，并对各种输入模态的方法进行了深入分析。具体来说，我们总结了通用的网络流程，重点介绍了信息融合技术，并讨论了有效的网络训练。我们评估并分析了最先进方法在流行数据集上的占用感知性能。此外，还讨论了挑战和未来的研究方向。我们希望本文能够激发社区的兴趣，并鼓励更多关于3D占用感知的研究工作。本综述中的研究列表可在持续收集最新工作的公开存储库中找到：https://github.com/HuaiyuanXu/3D-Occupancy-Perception。

关键词：自动驾驶，信息融合，占用感知，多模态数据。

1 引言

自动驾驶中的占用感知

自动驾驶可以提高城市交通效率并减少能源消耗。为了实现可靠和安全的自动驾驶，关键能力之一是理解周围环境，即感知观察到的世界。目前，鸟瞰图（BEV）感知是主流的感知模式[1; 2]，其优势在于绝对尺度和无遮挡的环境描述。BEV感知为多源信息融合（例如，来自不同视角、模态、传感器和时间序列的信息）和众多下游应用（例如，可解释的决策制定和运动规划）提供了统一的表示空间。然而，BEV感知不监测高度信息，因此无法提供3D场景的完整表示。

为了解决这个问题，自动驾驶中提出了占用感知技术，以捕捉现实世界的密集3D结构。这一新兴的感知技术旨在推断体素化世界中每个体素的占用状态，具有对开放集对象、不规则形状车辆和特殊道路结构的强大泛化能力[3; 4]。与透视视图和鸟瞰图等2D视图相比，占用感知具有3D属性，使其更适合3D下游任务，如3D检测[5; 6]、分割[4]和跟踪[7]。

在学术界和工业界，用于整体3D场景理解的占用感知具有重要意义。从学术角度来看，从复杂的输入格式（包括多个传感器、模态和时间序列）中估计现实世界的密集3D占用是具有挑战性的。此外，进一步推理占用体素的语义类别[8]、文本描述[9]和运动状态[10]是有价值的，这为更全面地理解环境铺平了道路。从工业角度来看，每辆自动驾驶车辆上部署激光雷达套件是昂贵的。以摄像头作为激光雷达的廉价替代品，视觉为中心的占用感知确实是一种降低车辆设备制造成本的经济有效解决方案。

信息融合研究的动机

占用感知的核心在于理解完整且密集的3D场景，包括理解被遮挡的区域。然而，单个传感器的观察只能捕捉场景的一部分。例如，图1直观地展示了图像或点云无法提供3D全景或密集的环境扫描。为此，研究来自多个传感器[11, 12, 13]和多个帧[4, 8]的信息融合将有助于更全面的感知。这是因为，一方面，信息融合扩展了感知的空间范围，另一方面，它使场景观察更加密集。此外，对于被遮挡的区域，整合多帧观察是有益的，因为同一场景由多个视角观察，这为遮挡推理提供了足够的场景特征。

图1：自动驾驶车辆系统。来自摄像头、激光雷达和雷达的感知数据使车辆能够智能地感知其周围环境。随后，智能决策模块生成驾驶行为的控制和规划。占用感知在三维语义占用感知、检测、分割和跟踪方面优于基于透视视图、鸟瞰图或点云的感知方法，具有更强的三维理解和密度优势。

此外，在光照和天气条件变化的复杂户外场景中，稳定的占用感知需求至关重要。这种稳定性对于确保驾驶安全至关重要。此时，多模态融合的研究将通过结合不同模态数据的优势来促进鲁棒的占用感知[11, 12, 14, 15]。例如，激光雷达和雷达数据对光照变化不敏感，可以感知场景的精确深度。这种能力在夜间驾驶或阴影/眩光遮挡关键信息的场景中尤为重要。摄像头数据擅长捕捉详细的视觉纹理，能够识别基于颜色的环境元素（例如，路标和交通灯）和远距离物体。因此，融合来自激光雷达、雷达和摄像头的数据将提供对环境的全面理解，同时抵御不利的环境变化。

贡献

在感知相关主题中，3D语义分割[16, 17]和3D目标检测[18, 19, 20, 21]已被广泛综述。然而，这些任务并未促进对环境的密集理解。BEV感知解决了这一问题，也已被彻底综述[1, 2]。我们的综述侧重于3D占用感知，它捕捉了BEV感知忽略的环境高度信息。有两篇相关综述：Roldao等人[22]对室内和室外场景的3D场景补全进行了文献综述；Zhang等人[23]仅基于视觉模态的3D占用预测进行了综述。与他们的工作不同，我们的综述专门针对自动驾驶场景，并通过考虑更多传感器模态扩展了现有的3D占用综述。此外，鉴于3D占用感知的多源性质，我们对该领域的信息融合技术进行了深入分析。本综述的主要贡献有三点：

我们系统地回顾了自动驾驶领域3D占用感知的最新研究，涵盖了动机分析、整体研究背景以及方法、评估和挑战的深入讨论。
我们提供了3D占用感知的分类，并详细阐述了核心方法问题，包括网络流程、多源信息融合和有效的网络训练。
我们提供了3D占用感知的评估，并提供了详细的性能比较。此外，还讨论了当前的局限性和未来的研究方向。

本文的其余部分结构如下。第2节简要介绍了历史背景、定义和相关研究领域。第3节详细介绍了方法学见解。第4节进行了性能比较和分析。最后，第5节和第6节分别讨论了未来的研究方向和总结。

2 背景

2.1 占用感知的简要历史

占用感知源自占用栅格地图（OGM）[24]，这是移动机器人导航中的一个经典课题，旨在从噪声和不确定的测量中生成栅格地图。该地图中的每个栅格都被分配一个值，用于评分该栅格空间被障碍物占据的概率。语义占用感知起源于SS-CNet[25]，它从单张图像中预测室内场景中所有体素的占用状态和语义信息。然而，研究室外场景的占用感知对于自动驾驶至关重要，这与室内场景不同。MonoScene[26]是使用单目摄像头进行室外场景占用感知的开创性工作。与MonoScene同时，特斯拉在CVPR 2022自动驾驶研讨会上宣布了其全新的仅基于摄像头的占用网络[27]。该网络根据环视RGB图像全面理解车辆周围的3D环境。随后，占用感知引起了广泛关注，推动了近年来自动驾驶占用感知研究的激增。图2中的时间线概述表明，自2023年以来，占用感知领域发展迅速。

图2：3D占用感知的按时间顺序概述。可以观察到：(1) 自2023年以来，占用感知的研究呈现出爆炸性增长；(2) 主要趋势集中在以视觉为中心的占用感知，辅以激光雷达为中心的方法和多模态方法。

早期的室外占用感知方法主要使用激光雷达输入来推断3D占用[28, 29, 30]。然而，最近的方法转向更具挑战性的以视觉为中心的3D占用预测[31, 32, 33, 34]。目前，占用感知研究的一个主导趋势是以视觉为中心的解决方案，辅以激光雷达为中心的方法和多模态方法。占用感知可以作为端到端自动驾驶框架中3D物理世界的统一表示[8, 35]，随后应用于各种驾驶任务，如检测、跟踪和规划。占用感知网络的训练严重依赖于密集的3D占用标签，这促使了多种街景占用数据集的发展[11, 10, 36, 37]。最近，利用大模型的强大性能，将大模型与占用感知结合，有望减少繁琐的3D占用标注需求[38]。

2.2 任务定义

占用感知旨在从多源输入中提取观察到的3D场景的体素级表示。具体来说，这种表示涉及将连续的3D空间 $W$ 离散化为由密集体素组成的网格体积 $V$ 。每个体素的状态由 $\{1,0\}$ 或 $\{c_{0},\cdots,c_{n}\}$ 的值描述，如图3所示，

W\in\mathbb{R}^{3}\to V\in\{0,1\}^{X\times Y\times Z}~\text{或}\{c_{0},\cdots,c_{n}\}^{X\times Y\times Z},

其中 $0$ 和 $1$ 表示占用状态； $c$ 表示语义； $(X,Y,Z)$ 是体素体积的长度、宽度和高度。这种体素化表示有两个主要优势：(1) 它能够将非结构化数据转换为体素体积，从而便于通过卷积[39]和Transformer[40]架构进行处理；(2) 它为3D场景理解提供了灵活且可扩展的表示，在空间粒度和内存消耗之间实现了最佳权衡。

多源输入包括来自多个传感器、模态和帧的信号，常见的格式如图像和点云。我们将第 $t$ 帧的多摄像头图像 $\left\{I^{1}_{t},\ldots,I^{N}_{t}\right\}$ 和点云 $P_{t}$ 作为输入 $\Omega_{t}=\left\{I^{1}_{t},\ldots,I^{N}_{t},P_{t}\right\}$ 。 $N$ 是摄像头的数量。占用感知网络 $\Phi_{O}$ 处理第 $t$ 帧和前 $k$ 帧的信息，生成第 $t$ 帧的体素级表示 $V_{t}$ ：

V_{t}=\Phi_{O}\left(\Omega_{t},\ldots,\Omega_{t-k}\right),\quad\text{s.t.}\quad t-k\geq 0.

2.3 相关工作

2.3.1 鸟瞰图感知

鸟瞰图感知将3D场景表示在BEV平面上。具体来说，它将3D空间中每个整个柱体的特征提取为相应BEV网格的特征。这种紧凑的表示从自上而下的角度提供了空间布局的清晰直观描述。特斯拉发布了其基于BEV感知的系统化管道[41]，能够在BEV空间中检测物体和车道线，用于L2级高速公路导航和智能召唤。

根据输入数据，BEV感知主要分为三组：BEV摄像头[42, 43, 44]、BEV激光雷达[45, 46]和BEV融合[47, 48]。当前的研究主要集中在BEV摄像头上，其关键在于从图像空间到BEV空间的有效特征转换。为了解决这一挑战，一类工作采用显式变换，首先估计前视图像的深度，然后利用摄像头的内参和外参矩阵将图像特征映射到3D空间，随后进行BEV池化[43, 48, 49]。相反，另一类工作采用隐式转换[50, 44]，通过交叉注意力机制隐式建模深度，并从图像特征中提取BEV特征。值得注意的是，基于摄像头的BEV感知在下游任务中的表现现已与基于激光雷达的方法相当[49]。相比之下，占用感知可以被视为BEV感知的扩展。占用感知构建的是3D体积空间，而不是2D BEV平面，从而提供了对3D场景的更完整描述。

2.3.2 3D语义场景补全

3D语义场景补全（3D SSC）是从有限观察中同时估计给定范围内3D环境的几何和语义的任务，这需要想象被遮挡物体和场景的完整3D内容。从任务内容的角度来看，3D语义场景补全[26, 37, 51, 52, 53]与语义占用感知[12, 32, 54, 55, 56]一致。

图3：带有和不带有语义的体素级表示示意图。左侧的体素体积描绘了整体占用分布。右侧的体素体积加入了语义丰富性，其中每个体素都与类别估计相关联。

基于先验知识，人类擅长估计3D环境和被遮挡区域的几何和语义信息，但对于计算机和机器来说，这更具挑战性[22]。SSCNet[25]首次提出了语义场景补全问题，并尝试通过卷积神经网络来解决。早期的3D SSC研究主要处理静态室内场景[25, 57, 58]，例如NYU [59]和SUNCG [25]数据集。随着大规模室外基准数据集SemanticKITTI[60]的发布，许多室外SSC方法应运而生。其中，MonoScene[26]提出了首个用于室外3D语义场景补全的单目方法。它采用2D到3D的反向投影来提升2D图像，并利用连续的2D和3D UNet进行语义场景补全。近年来，越来越多的方法引入了多摄像头和时间信息[56, 61, 62]，以增强模型对场景的理解并减少补全的模糊性。

2.3.3 基于图像的3D重建

3D重建是计算机视觉和机器人社区中的一个传统但重要的话题[63, 64, 65, 66]。基于图像的3D重建的目标是根据从一个或多个视角捕获的2D图像构建物体或场景的3D模型。早期的方法利用形状从阴影[67]或运动结构[68]技术。随后，神经辐射场（NeRF）[69]引入了一种新的3D重建范式，通过学习3D场景的密度和颜色场，生成具有前所未有的细节和保真度的结果。然而，这种性能需要大量的训练时间和渲染资源[70, 71, 72]，尤其是对于高分辨率输出。最近，3D高斯泼溅（3D GS）[73]通过重新定义场景表示和渲染的范式，解决了这一问题。具体来说，它使用数百万个3D高斯函数以显式方式表示场景，实现了更快、更高效的渲染[74]。3D重建强调场景的几何质量和视觉外观。相比之下，体素级占用感知对分辨率和视觉外观的要求较低，而是更关注场景的占用分布和语义理解。

3 方法论

表1：自动驾驶中3D占用感知方法的总结。
模态：C-相机，L-激光雷达，R-雷达，T-文本
特征格式：表示输入数据的特征表示形式，例如体积分（Vol）、鸟瞰图（BEV）、透视图（PV）、三视图（TPV）或点特征（Point）。
多相机：是否使用多相机输入。
多帧：是否使用多帧信息进行时间融合。
轻量化设计：是否采用轻量化的网络设计，例如稀疏表示或张量分解。
头部：网络的输出头部设计，例如多层感知机（MLP）或掩码解码器（Mask Decoder）。
任务：网络的任务类型，例如预测（P）、预测与分割（PO）、开放词汇预测（OP）或语义分割（F）。
损失函数：使用的损失函数类型，包括几何损失（如BCE、SIL、SI）、语义损失（如CE、PA、FP）、联合损失（如Aff、MC）、一致性损失（如SC、MA）和蒸馏损失（如KD）。

表1详细列出了近年来用于自动驾驶的占用感知方法及其特点。该表详细说明了每种方法的发表场所、输入模态、网络设计、目标任务、网络训练和评估以及开源状态。在本节中，根据输入数据的模态，我们将占用感知方法分为三类：以激光雷达为中心的占用感知、以视觉为中心的占用感知和多模态占用感知。此外，还将讨论网络训练策略和相应的损失函数。

3.1 以激光雷达为中心的占用感知

3.1.1 通用流程

以激光雷达为中心的语义分割[104, 105, 106]仅预测稀疏点的语义类别。相比之下，以激光雷达为中心的占用感知提供了对环境的密集3D理解，这对自动驾驶系统至关重要。对于激光雷达传感，获取的点云具有固有的稀疏性，并且容易受到遮挡的影响。这要求以激光雷达为中心的占用感知不仅要解决场景的稀疏到密集占用推理，还要实现物体的部分到完整估计[12]。

图4展示了以激光雷达为中心的占用感知的通用流程。

输入点云首先经过体素化和特征提取，随后通过编码器-解码器模块进行表示增强。最终，推断出场景的完整和密集占用。

具体来说，给定一个点云 $P\in\mathbb{R}^{N\times 3}$ ，我们生成一系列初始体素并提取其特征。这些体素分布在3D体积[28, 30, 107, 108]、2D BEV平面[30, 75]或三个2D三视角平面[79]中。此操作构建了3D特征体积或2D特征图，分别表示为 $V_{\text{init}-3D}\in\mathbb{R}^{X\times Y\times Z\times D}$ 和 $V_{\text{init}-2D}\in\mathbb{R}^{X\times Y\times D}$ 。 $N$ 表示点的数量； $(X,Y,Z)$ 是长度、宽度和高度； $D$ 表示体素的特征维度。除了在规则欧几里得空间中进行体素化外，PointOcc[79]在圆柱坐标系中构建了三视角2D特征图。圆柱坐标系更符合激光雷达点云的空间分布，其中靠近激光雷达传感器的点比远处的点更密集。因此，在附近区域使用较小尺寸的圆柱体素进行细粒度建模是合理的。点云的体素化和特征提取可以表示为：

V_{\text{init}-2D/3D}=\Phi_{V}\left(\Psi_{V}\left(P\right)\right),

其中 $\Psi_{V}$ 表示柱体或立方体素化。 $\Phi_{V}$ 是特征提取器，用于提取体素的神经特征（例如，使用PointPillars [109]、VoxelNet [110]和MLP）[75, 79]，或直接计算体素内点的几何特征（例如，平均高度、最小高度和最大高度）[30, 107]。

编码器和解码器可以是各种模块，用于增强特征。最终的三维占用推断涉及在增强特征上应用卷积[28, 30, 78]或MLP[75, 79, 108]，以推断每个体素的占用状态{1, 0}，甚至估计其语义类别：

V=f_{Conv/MLP}(ED(V_{init-2D/3D}))

其中ED表示编码器和解码器。

图4：以激光雷达为中心的占用感知架构：仅2D分支[75, 79]、仅3D分支[11, 28, 107]，以及同时集成2D和3D分支[30]。

3.1.2 2D与3D分支的融合

一些工作直接使用单一的二维分支来推理三维占用，例如DIFs[75]和PointOcc[79]。在这些方法中，只需要二维特征图而不是三维特征体积，从而减少了计算需求。然而，一个显著的缺点是部分丢失了高度信息。相比之下，三维分支不压缩任何维度的数据，从而保留了完整的三维场景。

为了在三维分支中提高内存效率，LMSCNet[28]将高度维度转换为特征通道维度。这种转换使得在三维分支中可以使用更高效的二维卷积，而不是三维卷积。此外，整合来自二维和三维分支的信息可以显著改进占用预测[30]。

S3CNet[30]提出了一种独特的后期融合策略，用于整合来自二维和三维分支的信息。这种融合策略涉及一种动态体素融合技术，该技术利用二维分支的结果来增强三维分支的输出密度。消融研究表明，这种简单直接的信息融合策略可以使三维占用感知的性能提高5-12%。

3.2 以视觉为中心的占用感知

3.2.1 通用流程

受特斯拉自动驾驶车辆感知系统技术的启发[27]，以视觉为中心的占用感知在工业界和学术界引起了广泛关注。与以激光雷达为中心的方法相比，仅依赖摄像头传感器的以视觉为中心的占用感知代表了当前的研究趋势。主要原因有三点：

摄像头在大规模车辆部署中具有成本效益；
RGB图像捕捉了丰富的环境纹理，有助于理解场景和物体，如交通标志和车道线；
深度学习技术的快速发展使得从2D视觉实现3D占用感知成为可能。

以视觉为中心的占用感知可以分为单目解决方案[26; 33; 51; 52; 54; 55; 84; 88; 111; 112]和多摄像头解决方案[8; 31; 32; 38; 53; 61; 80; 81; 113; 114; 115]。

多摄像头感知覆盖了更广的视野，其通用流程如图5所示。它首先从多摄像头图像中提取前视特征图，随后进行2D到3D的转换、空间信息融合以及可选的时间信息融合，最终通过占用头推断环境的3D占用。

图5：基于视觉的占用感知架构：不带时间融合的方法[31, 32, 36, 38, 76, 81, 82, 83, 87, 116]；带时间融合的方法[4, 8, 10, 56, 80, 85]。
多相机图像经过2D图像主干网络提取特征图。
通过2D到3D的转换（如投影、反向投影或交叉注意力）将2D特征图转换为BEV（鸟瞰图）、TPV（三视图）或体积分特征。
在多相机重叠区域进行空间信息融合（可选）。
对于带时间融合的方法，还会将当前帧与历史帧进行时间空间对齐，并进行时间信息融合。
最后，通过占用头（如3D卷积或MLP）生成环境的3D占用预测。

具体来说，RGB图像的2D特征图 $F_{2D}(u,v)$ 构成了以视觉为中心的占用流程的基础。其提取利用了预训练的图像骨干网络 $\Phi_{F}$ ，如基于卷积的ResNet [39]和基于Transformer的ViT [117]， $F_{2D}\left(u,v\right)=\Phi_{F}\left(I\left(u,v\right)\right)$ 。 $I$ 表示输入图像， $\left(u,v\right)$ 是像素坐标。由于前视仅提供2D视角，因此必须进行2D到3D的转换，以推断前视所缺乏的深度维度，从而实现3D场景感知。2D到3D的转换将在下一节详细讨论。

(a) 二维到三维转换。这是从二维观测构建三维数据的基本单元，通常通过投影[26, 31, 38, 53]、反向投影[55, 80, 81, 82]和交叉注意力[4, 36, 76, 113, 118]技术实现。
(b) 空间信息融合。在多相机视图重叠区域，来自多个相机的特征通过平均[38, 53, 82]或交叉注意力[4, 32, 76, 113, 120]进行融合。
(c) 时间信息融合。历史特征和当前特征经过时间空间对齐后，通过卷积[4]（见特征融合模块中的第1行）、交叉注意力[8, 33, 56, 120]（第2行）和自适应混合[118]（第3行)进行融合。
图6：基于视觉的三维占用感知的关键组件。具体来说，我们展示了从二维观测构建三维数据的技术，包括视图转换（即二维到三维转换）、多相机信息融合（即空间信息融合）以及历史信息融合（即时间信息融合）。

3.2.2 2D到3D的转换

该转换旨在将前视特征转换为BEV特征[61; 80]、TPV特征[32]或体积特征[33; 76; 85]，以获取前视所缺失的深度维度。值得注意的是，尽管BEV特征位于俯视的2D平面上，但它们可以将高度信息编码到特征通道维度中，从而表示3D场景。三视角将3D空间投影到三个正交的2D平面上，因此3D空间中的每个特征都可以表示为三个TPV特征的组合。2D到3D的转换可以表示为 $F_{BEV/TPV/Vol}\left(x^{*},y^{*},z^{*}\right)=\Phi_{T}\left(F_{2D}\left(u,v\right)\right)$ ，其中 $(x,y,z)$ 表示3D空间中的坐标， $*$ 表示在BEV或TPV平面中可能不存在的特定维度， $\Phi_{T}$ 是从2D到3D的转换。该转换可以分为三种类型，分别使用投影[26; 31; 38; 53]、反向投影[55; 80; 81; 82]和交叉注意力[4; 36; 76; 113; 118]技术。以构建体积特征为例，该过程如图6a所示。

(1) 投影：它建立了从特征体积到特征图的几何映射。该映射通过透视投影模型 $\Psi_{\rho}$ [121]将3D空间中的体素中心投影到2D前视特征图上，然后通过双线性插值 $\Psi_{S}$ 进行采样[26, 31, 38, 53]。该投影过程可以表示为：

F_{Vol}\left(x,y,z\right)=\Psi_{S}\left(F_{2D}\left(\Psi_{\rho}\left(x,y,z,K,RT\right)\right)\right),

其中 $K$ 和 $RT$ 是摄像头的内参和外参矩阵。然而，基于投影的2D到3D转换的问题是，沿着视线方向，3D空间中的多个体素对应于前视特征图中的同一位置。这导致多对一的映射，从而引入了2D和3D之间对应关系的模糊性。

(2) 反向投影：反向投影是投影的逆过程。同样，它也利用透视投影来建立2D和3D之间的对应关系。然而，与投影不同，反向投影使用每个像素的估计深度 $d$ 来计算从2D到3D的精确一对一映射。

F_{Vol}\left(\Psi_{V}\left(\Psi_{\rho}^{-1}\left(u,v,d,K,RT\right)\right)\right)= F_{2D}\left(u,v\right),

其中 $\Psi_{\rho}^{-1}$ 表示反向投影函数； $\Psi_{V}$ 是体素化。由于估计深度值可能会引入误差，因此更有效的方法是预测沿光线的离散深度分布 $Dis$ ，而不是为每个像素估计特定深度[55, 80, 81, 82]。即， $F_{Vol}=F_{2D}\otimes Dis$ ，其中 $\otimes$ 表示外积。这种基于深度分布的反向投影源自LSS [122]，具有显著优势。

一方面，它可以处理深度感知中的不确定性和模糊性。例如，如果某个像素的深度不明确，模型可以通过深度分布实现这种不确定性。
另一方面，这种概率深度估计方法提供了更强的鲁棒性，特别是在多摄像头设置中。
- 如果多摄像头图像中的对应像素具有错误的深度值并映射到3D空间中的同一体素，它们的信息可能无法整合。
- 相比之下，估计深度分布允许在深度不确定的情况下进行信息融合，从而提高了鲁棒性和准确性。

(3) 交叉注意力：基于交叉注意力的转换旨在以可学习的方式在特征体积和特征图之间进行交互。与注意力机制[40]一致，3D特征体积中的每个体积特征作为查询，而键和值来自2D特征图。然而，使用普通的交叉注意力进行2D到3D转换需要大量的计算开销，因为每个查询必须关注特征图中的所有特征。

为了优化GPU效率，许多转换方法[4, 36, 76, 113, 118]采用了可变形交叉注意力[123]，其中查询与选定的参考特征进行交互，而不是特征图中的所有特征，从而大大减少了计算量。具体来说，对于每个查询，我们根据给定的内参和外参将其3D位置 $q$ 投影到2D特征图上。我们在投影的2D位置 $p$ 周围采样一些参考特征。然后，根据可变形注意力机制对这些采样特征进行加权求和：

F_{Vol}\left(q\right)=\sum_{i=1}^{N_{head}}W_{i}\sum_{j=1}^{N_{key}}A_{ij}W_{ij}F_{2D}\left(p+\triangle p_{ij}\right),

其中 $(W_{i},W_{ij})$ 是可学习的权重， $A_{ij}$ 表示注意力， $p+\triangle p_{ij}$ 表示参考特征的位置， $\triangle p_{ij}$ 表示可学习的位置偏移。

此外，还有一些混合转换方法结合了多种2D到3D转换技术。VoxFormer[33]和SGN[51]首先通过逐像素深度估计和反向投影计算粗略的3D特征体积，随后使用交叉注意力细化特征体积。COTR[85]具有与VoxFormer和SGN类似的混合转换，但它用深度分布估计替代了逐像素深度估计。

对于TPV特征，TPVFormer[32]通过交叉注意力实现2D到3D的转换。转换过程与图6a中描述的过程略有不同，其中3D特征体积被替换为三个视角中特定视角的2D特征图。对于BEV特征，从前视到鸟瞰图的转换可以通过交叉注意力[61]或反向投影和垂直池化[61, 80]来实现。

3.2.3 以视觉为中心的占用感知中的信息融合

在多摄像头设置中，每个摄像头的前视特征图描述了场景的一部分。为了全面理解场景，有必要从多个特征图中进行空间信息融合。此外，场景中的物体可能被遮挡或处于运动状态。通过融合多帧的特征图，可以帮助推理被遮挡区域并识别物体的运动状态。

(1) 空间信息融合：多摄像头观测的融合可以创建一个具有扩展视野的3D特征体积，用于场景感知。在多摄像头视图的重叠区域中，3D特征体积中的一个体素在投影后会命中多个2D前视特征图。有两种方式可以融合这些命中的2D特征：平均[38, 53, 82]和交叉注意力[4, 32, 76, 113]，如图6b所示。平均操作计算多个特征的平均值，简化了融合过程并减少了计算成本。然而，它假设不同的2D视角对感知3D场景的贡献是等效的。这可能并不总是成立，尤其是在某些视角被遮挡或模糊的情况下。

为了解决这个问题，多摄像头交叉注意力被用于自适应地融合来自多个视角的信息。具体来说，其过程可以看作是公式7的扩展，通过引入更多的摄像头视角。我们将可变形注意力函数重新定义为 $DA\left(q,p_{i},F_{2D,i}\right)$ ，其中 $q$ 是3D空间中的查询位置， $p_{i}$ 是其在特定2D视角上的投影位置， $F_{2D,i}$ 是对应的2D前视特征图。多摄像头交叉注意力过程可以表示为：

F_{Vol}\left(q\right)=\frac{1}{\left|\nu\right|}\sum_{i\in\nu}DA\left(q,p_{i},F_{2D,i}\right),

其中 $F_{Vol}\left(q\right)$ 表示3D特征体积中查询位置的特征， $\nu$ 表示所有命中的视角。

(2) 时间信息融合：近年来，基于视觉的BEV感知系统[44, 124, 125]的进展表明，整合时间信息可以显著提高感知性能。类似地，在基于视觉的占用感知中，通过结合历史特征和当前感知输入的相关信息，可以提高准确性和可靠性。时间信息融合的过程包括两个部分：时空对齐和特征融合，如图6c所示。时空对齐利用自车的姿态信息将历史特征 $F_{t-k}$ 与当前特征进行空间对齐。对齐过程可以表示为：

F^{\prime}_{t-k}=\Psi_{S}\left(T_{t-k\to t}\cdot F_{t-k}\right),

其中 $T_{t-k\to t}$ 是将第 $t-k$ 帧转换到当前帧 $t$ 的变换矩阵，涉及平移和旋转； $\Psi_{S}$ 表示特征采样。

一旦对齐完成，历史和当前特征将被输入到特征融合模块中，以增强表示，特别是增强对被遮挡区域的推理能力和对运动物体的识别能力。特征融合主要有三种主流方式：卷积、交叉注意力和自适应混合。PanoOcc[4]将前一帧的特征与当前帧的特征拼接，然后使用一组3D残差卷积块进行融合。许多占用感知方法[22, 33, 56, 84, 120]使用交叉注意力进行融合。该过程类似于多摄像头交叉注意力（参见公式8），但不同之处在于3D空间中的体素被投影到2D多帧特征图，而不是多摄像头特征图。此外，SparseOcc[118]采用自适应混合[126]进行时间信息融合。对于当前帧的查询特征，SparseOcc从历史帧中采样 $S_{n}$ 个特征，并通过自适应混合进行聚合。具体来说，采样特征分别乘以通道混合矩阵 $W_{C}$ 和点混合矩阵 $W_{S_{n}}$ 。这些混合矩阵从当前帧的查询特征 $F_{q}$ 动态生成：

W_{C/S_{n}}=\text{Linear}\left(F_{q}\right)\in\mathbb{R}^{C\times C}/\mathbb{R}^{S_{n}\times S_{n}}.

自适应混合的输出被展平，经过线性投影，然后作为残差添加到查询特征中。

经过空间和时间信息融合的特征由各种类型的头部处理，以确定3D占用。这些头部包括卷积头部、掩码解码器头部、线性投影头部和带阈值的线性投影头部。基于卷积的头部[7, 10, 26, 38, 61, 76, 114]由多个3D卷积层组成。基于掩码解码器的头部[55, 85, 90, 118]受MaskFormer[127]和Mask2Former[128]启发，将3D语义占用预测形式化为一组二进制3D掩码的估计，每个掩码与相应的语义类别相关联。具体来说，它们计算每个体素的嵌入，并评估每个查询嵌入及其相关语义。最终的占用预测通过计算这两个嵌入的点积获得。基于线性投影的头部[4, 32, 33, 36, 51, 84, 89]利用轻量级MLP在特征通道维度上生成占用状态和语义。此外，对于基于NeRF [69]的占用方法[81, 83, 87, 91, 116]，它们的占用头部使用两个独立的MLP（MLP ${}_{\sigma}$ ，MLP ${}_{s}$ ）来估计密度体积 $V_{\sigma}$ 和语义体积 $V_{S}$ 。然后根据给定的置信度阈值 $\tau$ 选择占用的体素，并根据 $V_{S}$ 确定其语义类别：

V\left(x,y,z\right)=\begin{cases}\text{argmax }\left(V_{S}\left(x ,y,z\right)\right) &\text{if }V_{\sigma}\left(x,y,z\right)\geq\tau\\ \text{empty} &\text{if }V_{\sigma}\left(x,y,z\right)<\tau,\end{cases}

其中 $(x,y,z)$ 表示3D坐标。

3.3 多模态占用感知

3.3.1 通用流程

摄像头捕获的RGB图像提供了丰富且密集的语义信息，但对天气条件变化敏感，且缺乏精确的几何细节。相比之下，来自激光雷达或雷达的点云对天气变化具有鲁棒性，并且擅长通过精确的深度测量捕捉场景几何。然而，它们仅生成稀疏特征。多模态占用感知可以结合多种模态的优势，并缓解单模态感知的局限性。图7展示了多模态占用感知的通用流程。大多数多模态方法[11, 12, 15, 103]将2D图像特征映射到3D空间，然后与点云特征融合。此外，在融合过程中加入2D前视特征可以进一步细化表示[14]。融合后的表示通过可选的细化模块和占用头部（如3D卷积或MLP）进行处理，以生成最终的3D占用预测。可选的细化模块[100]可以是交叉注意力、自注意力和扩散去噪[129]的组合。

图7：多模态占用感知架构：点云和图像信息的融合[11, 12, 15, 103, 100]。虚线表示额外的前视特征图融合[14]。 $\odot$ 表示逐元素乘积。 $\delta$ 是可学习的权重。

3.3.2 多模态占用感知中的信息融合

有三种主要的多模态信息融合技术用于整合不同模态分支的信息：拼接、求和和交叉注意力。

(1) 拼接：受BEVFusion[47, 48]的启发，OccFusion[12]通过将不同模态的3D特征体积沿特征通道拼接，然后应用卷积层来融合信息。类似地，RT3DSO[15]通过投影将3D点的强度值与其对应的2D图像特征拼接，然后将组合数据输入卷积层。然而，3D空间中的某些体素可能仅包含来自点云分支或视觉分支的特征。为了缓解这一问题，CO-Occ[103]引入了几何和语义感知融合（GSFusion）模块，该模块识别包含点云和视觉信息的体素。该模块利用K近邻（KNN）搜索[130]在体素空间中选择给定位置在特定半径内的 $k$ 个最近邻。对于来自点云分支的第 $i$ 个非空特征 $FL_{i}$ ，其最近的视觉分支特征表示为 $\{FV_{i1},\cdots,FV_{ik}\}$ ，并通过线性投影获得可学习的权重 $\omega_{i}$ ：

\omega_{i}=\text{Linear}\left(\text{Concat}\left(FV_{i1},\cdots,FV_{ik}\right)\right).

最终的激光雷达-视觉特征表示为 $FLV=\text{Concat}\left(FV,FL,FL\cdot\omega\right)$ ，其中 $\omega$ 表示来自 $\omega_{i}$ 的几何-语义权重。

(2) 求和：CONet[11]和OccGen[100]采用自适应融合模块动态整合摄像头和激光雷达分支的占用表示。它利用3D卷积处理多个单模态表示以确定其融合权重，随后应用这些权重对激光雷达分支表示和摄像头分支特征进行求和。

(3) 交叉注意力：HyDRa[14]提出了在前视（PV）和BEV表示空间中整合多模态信息的方法。具体来说，前视图像特征通过BEV点云特征使用交叉注意力进行增强。之后，增强的前视图像特征通过估计深度转换为BEV视觉表示。这些BEV视觉特征通过与BEV点云特征的拼接进一步增强，随后通过简单的Squeeze-and-Excitation层[131]进行处理。最后，增强的前视图像特征和增强的BEV视觉特征通过交叉注意力融合，生成最终的占用表示。

3.4 网络训练

我们根据文献中提到的监督训练类型对网络训练技术进行分类。最常见的类型是强监督学习，而其他方法则采用弱监督、半监督或自监督进行训练。本节将详细介绍这些网络训练技术及其相关的损失函数。表1中的“训练”列简要概述了各种占用感知方法的网络训练情况。

3.4.1 强监督训练

强监督学习用于占用感知，涉及使用占用标签来训练占用网络。大多数占用感知方法采用这种训练方式[4, 10, 26, 28, 32, 55, 76, 82, 84, 85, 108, 114]。相应的损失函数可以分为：几何损失，用于优化几何精度；语义损失，用于增强语义预测；结合语义和几何的损失，用于鼓励更好的语义和几何精度；一致性损失，用于鼓励整体一致性；以及蒸馏损失，用于从教师模型向学生模型传递知识。接下来，我们将详细描述这些损失函数。

在几何损失中，二元交叉熵（BCE）损失是最常用的[30, 33, 55, 75, 82]，用于区分空体素和占用体素。BCE损失表示为：

\mathcal{L}_{BCE}=-\frac{1}{N_{V}}\sum_{i=0}^{N_{V}}\hat{V}_{i}log\left(V_{i}\right)-\left(1-\hat{V}_{i}\right)log\left(1-V_{i}\right),

其中 $N_{V}$ 是占用体积 $V$ 中的体素数量。此外，还有两种其他几何损失：尺度不变对数损失[132]和软IoU损失[133]。SimpleOccupancy[31]计算预测深度和真实深度之间的对数差异作为尺度不变对数损失。该损失依赖于对数差异而不是绝对差异，因此具有一定的尺度不变性。OCF[78]使用软IoU损失来更好地优化交并比（IoU）和预测置信度。

交叉熵（CE）损失是优化占用语义的首选损失[26, 32, 88, 89, 103, 114]。它将类别视为独立实体，形式化表示为：

\mathcal{L}_{CE}=-\frac{1}{N_{C}}\sum_{i=0}^{N_{V}}\sum_{c=0}^{N_{C}}\omega_{c}\hat{V}_{ic}log\left(\frac{e^{V_{ic}}}{\sum_{c^{\prime}}^{N_{C}}e^{V_{ic^{\prime}}}}\right),

其中 $\left(V,\hat{V}\right)$ 是真实和预测的语义占用，具有 $N_{C}$ 个类别。 $\omega_{c}$ 是根据类别频率的倒数分配的特定类别 $c$ 的权重。值得注意的是，CE损失和BCE损失也广泛用于语义分割[134, 135]。除了这些损失外，一些占用感知方法还采用了语义分割任务中常用的其他语义损失[136, 137]，例如Lovasz-Softmax损失[138]和Focal损失[139]。此外，还有两种专门的语义损失：视锥比例损失[26]，它从视觉视锥的角度提供线索以缓解遮挡模糊性；以及位置感知损失[140]，它利用局部语义熵来鼓励更锐利的语义和几何梯度。

可以同时优化语义和几何的损失包括场景类别亲和力损失[26]和掩码分类损失[127, 128]。前者从几何和语义角度优化精度、召回率和特异性。后者通常与掩码解码器头部[55, 85]相关联。

掩码分类损失源自MaskFormer[127]和Mask2Former[128]，它将交叉熵分类损失和每个预测掩码段的二元掩码损失结合起来。

一致性损失和蒸馏损失分别对应于空间一致性损失[75]和Kullback-Leibler（KL）散度损失[141]。空间一致性损失通过最小化给定点和空间中一些支持点之间的语义推理的Jensen-Shannon散度，从而增强语义的空间一致性。KL散度，也称为相对熵，用于量化一个概率分布与参考分布的偏差。HASSC[89]采用KL散度损失，鼓励学生模型从教师模型提供的在线软标签中学习更准确的占用。

3.4.2 其他监督训练

强监督训练虽然直接且有效，但需要繁琐的体素级标注。相比之下，弱监督、半监督和自监督训练则更加标签高效。

(1) 弱监督：弱监督意味着不使用占用标签，而是从其他标签中获取监督信号。例如，带有语义标签的点云可以指导占用预测。具体来说，Vampire[81]和RenderOcc[83]构建了密度和语义体积，这有助于推断场景的语义占用，并通过体积渲染计算深度和语义图。这些方法不使用占用标签，而是将带有语义标签的激光雷达点云投影到摄像头平面上，以获得真实深度和语义，从而监督网络训练。由于强监督和弱监督学习都预测几何和语义占用，因此强监督学习中使用的损失函数（如交叉熵损失、Lovasz-Softmax损失和尺度不变对数损失）也适用于弱监督学习。

(2) 半监督：半监督使用占用标签，但不覆盖整个场景，因此仅为占用网络训练提供部分监督。POP-3D[9]首先通过处理激光雷达点云生成占用标签，其中如果体素包含至少一个激光雷达点，则记录为占用，否则为空。由于激光雷达点云的稀疏性和遮挡性，以这种方式生成的占用标签并不涵盖整个空间，意味着只有部分场景的占用被标注。POP-3D使用交叉熵损失和Lovasz-Softmax损失来监督网络训练。此外，为了建立文本和3D占用之间的跨模态对应关系，POP-3D提出计算语言-图像特征和3D-语言特征之间的L2均方误差作为模态对齐损失。

(3) 自监督：自监督训练占用感知网络时不使用任何标签。为此，体积渲染[69]提供了一种自监督信号，通过最小化不同视角之间的光度差异来鼓励时空一致性。MVBTS[91]计算渲染的RGB图像和目标RGB图像之间的光度差异。然而，其他一些方法计算的是从源图像变形后的图像与目标图像之间的差异[31, 87, 38]，其中变形所需的深度通过体积渲染获得。OccNeRF[38]认为不比较渲染图像的原因是室外场景的大规模和少量视角监督会使体积渲染网络难以收敛。数学上，光度一致性损失[148]结合了L1损失和可选的结构相似性（SSIM）损失[149]，用于计算变形图像 $\hat{I}$ 和目标图像 $I$ 之间的重建误差：

\mathcal{L}_{Pho}=\frac{\alpha}{2}\left(1-\text{SSIM}\left(I,\hat{I}\right)\right)+(1-\alpha)\left\|I,\hat{I}\right\|_{1},

其中 $\alpha$ 是一个超参数权重。此外，OccNeRF以自监督的方式利用交叉熵损失进行语义优化。语义标签直接来自预训练的语义分割模型，例如预训练的开源词汇模型Grounded-SAM[150, 151, 152]。

4 评估

在本节中，我们将提供3D占用感知的性能评估。首先，介绍常用的评估数据集和指标。随后，我们将使用最流行的数据集对最先进的3D占用感知方法进行详细的性能比较和讨论。

4.1 数据集和指标

4.1.1 数据集

有多种数据集可用于评估占用预测方法的性能，例如广泛使用的KITTI [142]、nuScenes [86]和Waymo [143]。然而，大多数数据集仅包含2D语义分割标注，这对于3D占用预测方法的训练或评估并不实用。为了支持3D占用感知的基准测试，许多新数据集如Monoscene[26]、Occ3D[36]和OpenScene[93]基于nuScenes和Waymo等先前数据集开发。表2提供了数据集的详细总结。

表2：多模态传感器的3D占用数据集概览。Ann.表示标注。Occ.表示占用。C表示摄像头。L表示激光雷达。R表示雷达。D表示深度图。Flow表示3D占用流。以灰色突出显示的数据集为元数据集。
注释：
元数据集：这些数据集是基于其他大型数据集（如nuScenes、Waymo等）构建的，用于支持3D占用感知的基准测试。
模态：表示数据集中包含的传感器类型，例如摄像头（C）、激光雷达（L）或雷达（R）。
场景数量：数据集中包含的不同场景总数。
帧/剪辑数量（含标注）：标注了3D占用信息的帧或剪辑数量。
3D扫描数量：数据集中包含的3D扫描总数。
图像数量（含3D占用标注）：标注了3D占用信息的图像数量。
类别数量（含流标注）：数据集中包含的语义类别数量，以及是否标注了3D占用流信息（如物体运动）。

传统数据集：在3D占用算法发展之前，KITTI [142]、SemanticKITTI [60]、nuScenes [86]、Waymo [143]和KITTI-360 [92]是广泛用于2D语义感知方法的基准。KITTI包含来自22个场景的约15K标注帧和约15K 3D扫描，提供摄像头和激光雷达输入。SemanticKITTI扩展了KITTI，提供了约20K标注帧和约43K 3D扫描。nuScenes收集了来自1,000个场景的约390K 3D扫描，提供了约40K标注帧，并支持额外的雷达输入。Waymo和KITTI-360是两个大型数据集，分别包含约230K和约80K标注帧，而Waymo包含更多的场景（1000个场景），而KITTI-360仅包含11个场景。这些数据集是3D占用感知算法流行之前广泛采用的2D感知算法基准。这些数据集也作为3D占用感知算法的元数据集。

3D占用数据集：特斯拉提出的占用网络引领了自动驾驶中基于3D占用的感知趋势。然而，缺乏包含3D占用标注的公开大规模数据集，给3D占用感知的发展带来了困难。为了解决这一困境，许多研究人员基于nuScenes和Waymo等元数据集开发了3D占用数据集。Monoscene[26]支持3D占用标注，基于SemanticKITTI和KITTI数据集以及NYUv2 [59]数据集创建。SSCBench[37]基于KITTI-360、nuScenes和Waymo数据集开发，提供摄像头输入。OCFBench[78]基于Lyft-Level-5 [144]、Argoverse [145]、ApolloScape [146]和nuScenes数据集，仅包含激光雷达输入。SurroundOcc[76]、OpenOccupancy[11]和OpenOcc[8]基于nuScenes数据集开发。Occ3D[36]包含更多带有3D占用标签的标注帧（基于nuScenes的约40K帧和基于Waymo的约200K帧）。Cam4DOcc[10]和OpenScene[93]是两个新数据集，包含大规模的3D占用和3D占用流标注。Cam4DOcc基于nuScenes和Lyft-Level-5数据集，而OpenScene包含约4M标注帧，基于一个非常大的数据集nuPlan [147]。

4.1.2 评估指标

(1) 体素级指标：不考虑语义的占用预测被视为类别无关的感知。它仅关注理解空间几何，即确定3D空间中的每个体素是否被占用或为空。常用的评估指标是体素级交并比（IoU），表示为：

\text{IoU}=\frac{TP}{TP+FP+FN},

其中 $TP$ 、 $FP$ 和 $FN$ 分别表示真正例、假正例和假反例的数量。真正例表示实际占用的体素被正确预测。

同时推断占用状态和体素语义分类的占用预测可以被视为语义-几何感知。在这种情况下，**平均交并比（mIoU）**通常用作评估指标。mIoU指标分别计算每个语义类别的IoU，然后对所有类别的IoU取平均值，排除“空”类别：

\text{mIoU}=\frac{1}{N_{C}}\sum_{i=1}^{N_{C}}\frac{TP_{i}}{TP_{i}+FP_{i}+FN_{i}},

其中 $TP_{i}$ 、 $FP_{i}$ 和 $FN_{i}$ 分别表示特定语义类别 $i$ 的真正例、假正例和假反例的数量。 $N_{C}$ 表示语义类别的总数。

(2) 射线级指标：尽管体素级IoU和mIoU指标被广泛认可[10, 38, 53, 76, 80, 84, 85, 87]，但它们仍然存在局限性。由于激光雷达传感的不平衡分布和遮挡，从累积的激光雷达点云生成的真实体素标签并不完美，未扫描的区域被标注为空。此外，对于薄物体，体素级指标过于严格，因为一个体素的偏差会将薄物体的IoU值降低到零。为了解决这些问题，SparseOcc[118]模仿激光雷达的射线投射，提出了射线级mIoU，该指标评估射线到其最近接触表面的表现。这种新颖的mIoU与平均绝对速度误差（mAVE）结合，被**占用分数（OccScore）**指标[93]采用。OccScore克服了体素级指标的缺点，同时评估了感知场景中物体运动（即占用流）的性能。

射线级mIoU的公式与公式17在形式上一致，但在应用上有所不同。射线级mIoU评估每个查询射线，而不是每个体素。如果满足以下两个条件，则查询射线被视为真正例：(i) 其预测的类别标签与真实类别标签匹配；(ii) 预测深度与真实深度之间的L1误差低于给定阈值。mAVE测量了8个语义类别中真正例射线的平均速度误差。最终的OccScore计算为：

\text{OccScore} = \text{mIoU} \times 0.9 + \max(1 - \text{mAVE}, 0.0) \times 0.1.

4.2 性能

在本小节中，我们将从三个方面比较和分析各种3D占用感知方法的性能准确性和推理速度：整体比较、模态比较和监督比较。使用的评估数据集包括SemanticKITTI、Occ3D-nuScenes和SSCBench-KITTI-360。

4.2.1 感知准确性

SemanticKITTI[60]是第一个为室外驾驶场景提供3D占用标签的数据集。Occ3D-nuScenes[36]是CVPR 2023 3D占用预测挑战赛[157]中使用的数据集。这两个数据集是目前最流行的数据集。因此，我们总结了在这些数据集上训练和测试的各种3D占用方法的性能，如表3和表4所示。此外，我们还在SSCBench-KITTI-360数据集上评估了3D占用方法的性能，如表5所示。这些表根据输入模态和监督学习类型对占用方法进行了分类。最佳性能以粗体显示。表3和表5使用IoU和mIoU指标来评估3D几何和3D语义占用感知能力。表4采用mIoU和mIoU来评估3D语义占用感知。与mIoU不同，mIoU排除了“其他”和“其他平面”类别，并被自监督的OccNeRF[38]使用。为了公平起见，我们将OccNeRF的mIoU*与其他自监督占用方法进行比较。值得注意的是，OccScore指标在CVPR 2024自动驾驶大挑战赛[158]中使用，但尚未被广泛采用。因此，我们不总结使用该指标的占用性能。下面，我们将从三个方面比较感知准确性：整体比较、模态比较和监督比较。

表3：在SemanticKITTI测试集上3D占用预测的比较（%）。
Mod.：模态。C：摄像头。L：激光雷达。IoU评估了几何占用感知的性能，而mIoU评估了语义占用感知的性能。

(1) 整体比较：表3和表5显示，(i) 占用网络的IoU分数低于60%，而mIoU分数低于30%。IoU分数（表示几何感知，即忽略语义）显著高于mIoU分数。这是因为预测某些语义类别的占用是具有挑战性的，例如自行车、摩托车、行人、骑自行车者、骑摩托车者、柱子和交通标志。这些类别在数据集中的比例很小（低于0.3%），并且它们的形状较小，难以观察和检测。因此，如果这些类别的IoU分数较低，它们会显著影响整体mIoU值。因为mIoU计算不考虑类别频率，它将所有类别的IoU分数总和除以类别数量。(ii) 较高的IoU并不保证较高的mIoU。一个可能的解释是，占用网络的语义感知能力（反映在mIoU中）和几何感知能力（反映在IoU中）是不同的，并且不呈正相关。

表4：在Occ3D-nuScenes验证集上3D语义占用预测的比较（%）。
Sup. 表示监督学习类型。mIoU* 是排除“其他”和“其他平面”类别的平均交并比。为了公平起见，所有比较的方法均为以视觉为中心( vision-centric)的方法。

从表4可以看出，(i) 占用网络的mIoU分数在50%以下，高于SemanticKITTI和SSCBench-KITTI-360的分数。例如，TPVFormer[32]在SemanticKITTI和SSCBench-KITTI-360上的mIoU分别为11.26%和13.64%，但在Occ3D-nuScenes上达到了27.83%。OccFormer[55]和SurroundOcc[76]也有类似的情况。我们认为这可能是因为Occ3D-nuScenes的任务设置更简单。一方面，Occ3D-nuScenes使用环视图像作为输入，与仅使用单目或双目图像的SemanticKITTI和SSCBench-KITTI-360相比，包含了更丰富的场景信息。另一方面，Occ3D-nuScenes仅计算可见3D体素的mIoU，而其他两个数据集评估了可见和被遮挡区域，提出了更大的挑战。(ii) COTR[85]具有最佳的mIoU（46.21%），并且在Occ3D-nuScenes上的所有类别的IoU分数也最高。

表5：在SSCBench-KITTI-360测试集上的3D占用基准测试结果。最佳结果用粗体表示。OccFiner (Mono.)表示OccFiner从MonoScene的结果中进一步细化预测的占用情况。

(2) 模态比较：输入数据模态显著影响3D占用感知的准确性。表3和表5报告了不同模态下占用感知的性能。可以看出，由于激光雷达传感提供了精确的深度信息，以激光雷达为中心的占用方法具有更精确的感知能力，IoU和mIoU分数更高。例如，在SemanticKITTI数据集上，S3CNet[30]的mIoU最高（29.53%），DIFs[75]的IoU最高（58.90%）；在SSCBench-KITTI-360数据集上，S3CNet的IoU最高（53.58%）。然而，我们观察到多模态方法（例如，OpenOccupancy[11]和Co-Occ[103]）并未超越单模态（即以激光雷达为中心或以视觉为中心）方法，这表明它们尚未充分利用多模态融合的优势和输入数据的丰富性。因此，多模态占用感知仍有很大的改进空间。此外，以视觉为中心的占用感知近年来发展迅速。在SemanticKITTI数据集上，最先进的以视觉为中心的占用方法在IoU和mIoU方面仍落后于以激光雷达为中心的方法。但值得注意的是，在SSCBench-KITTI-360数据集上，以视觉为中心的CGFormer[156]的mIoU已经超过了以激光雷达为中心的方法。

(3) 监督比较：表4的“Sup.”列概述了用于训练占用网络的监督学习类型。使用强监督训练，即直接使用3D占用标签，是最常见的类型。表4显示，基于强监督学习的占用网络表现出色。FastOcc[82]、FB-Occ[153]、PanoOcc[4]和COTR[85]的mIoU分数显著高于弱监督或自监督方法（提高了12.42%-38.24%）。这是因为数据集提供的占用标签经过精心标注，具有高准确性，并且可以对网络训练施加强约束。然而，标注这些密集的占用标签既耗时又费力。因此，有必要探索基于弱监督或自监督的网络训练，以减少对占用标签的依赖。Vampire[81]是基于弱监督学习表现最好的方法，其mIoU分数为28.33%。它表明，语义激光雷达点云可以监督3D占用网络的训练。然而，语义激光雷达点云的收集和标注成本高昂。SelfOcc[87]和OccNeRF[38]是两个基于自监督学习的代表性占用工作。它们利用体积渲染和光度一致性来获取自监督信号，证明了网络可以在没有任何标签的情况下学习3D占用感知。然而，它们的性能仍然有限，SelfOcc的mIoU为7.97%，OccNeRF的mIoU*为10.81%。

4.2.2 推理速度

最近关于3D占用感知的研究[82, 118]不仅考虑了感知准确性，还考虑了推理速度。根据FastOcc[82]和SparseOcc[118]提供的数据，我们整理了3D占用方法的推理速度，并报告了它们的运行平台、输入图像大小、骨干架构以及在Occ3D-nuScenes数据集上的占用准确性，如表6所示。

一个实用的占用方法应具有高准确性（mIoU）和快速推理速度（FPS）。从表6可以看出，FastOcc的mIoU为40.75%，与BEVFormer的mIoU相当。值得注意的是，FastOcc在较低性能的GPU平台上具有比BEVFormer更高的FPS值。此外，通过TensorRT[159]加速后，FastOcc的推理速度达到了12.8Hz。

表6：在Occ3D-nuScenes数据集上3D占用感知的推理速度分析。†表示来自SparseOcc[118]的数据。‡表示来自FastOcc[82]的数据。R-50表示ResNet50[39]。TRT表示使用TensorRT SDK[159]进行加速。

5 挑战与机遇

在本节中，我们探讨了3D占用感知在自动驾驶中的挑战和机遇。占用作为3D世界的几何和语义表示，可以促进各种自动驾驶任务。我们讨论了3D占用的现有和潜在应用，展示了其在自动驾驶领域的潜力。此外，我们还讨论了占用感知在边缘设备上的部署效率、复杂现实驾驶环境中鲁棒性的必要性，以及实现广义3D占用感知的路径。

5.1 基于占用的自动驾驶应用

3D占用感知能够全面理解3D世界，并支持自动驾驶中的各种任务。现有的基于占用的应用包括分割、检测、动态感知、世界模型和自动驾驶算法框架。(1) 分割：语义占用感知本质上可以被视为3D语义分割任务。(2) 检测：OccupancyM3D[5]和SOGDet[6]是两个基于占用的工作，实现了3D目标检测。OccupancyM3D首先学习占用以增强3D特征，然后将其用于3D检测。SOGDet开发了两个并发任务：语义占用预测和3D目标检测，通过同时训练这些任务来实现相互增强。(3) 动态感知：其目标是捕捉周围环境中的动态物体及其运动，形式为预测动态物体的占用流。强监督的Cam4DOcc[10]和自监督的LOF[160]在占用流预测中展示了潜力。(4) 世界模型：它通过观察当前和历史数据来模拟和预测周围环境的未来状态[161]。根据输入观察数据，开创性工作可以分为基于语义占用序列的世界模型（例如，OccWorld[162]和OccSora[163]）、基于点云序列的世界模型（例如，SCSF[108]、UnO[164]、PCF[165]）和基于多摄像头图像序列的世界模型（例如，DriveWorld[7]和Cam4DOcc[10]）。然而，这些工作在高质量长期预测方面仍然表现不佳。(5) 自动驾驶算法框架：它将不同传感器输入整合为统一的占用表示，然后将占用表示应用于广泛的驾驶任务，如3D目标检测、在线地图构建、多目标跟踪、运动预测、占用预测和运动规划。相关作品包括OccNet[8]、DriveWorld[7]和UniScene[61]。

然而，现有的基于占用的应用主要集中在感知层面，较少涉及决策层面。鉴于3D占用比其他感知方式（例如，鸟瞰图感知和前视感知）更符合3D物理世界，我们认为3D占用在自动驾驶中具有更广泛的应用机会。在感知层面，它可以提高现有地点识别[166, 167]、行人检测[168, 169]、事故预测[170]和车道线分割[171]的准确性。在决策层面，它可以帮助做出更安全的驾驶决策[172]和导航[173, 174]，并为驾驶行为提供3D可解释性。

5.2 部署效率

对于复杂的3D场景，通常需要处理和分析大量的点云数据或多视角视觉信息，以提取和更新占用状态信息。为了实现自动驾驶应用的实时性能，解决方案通常需要在有限的时间内完成计算，并且需要高效的数据结构和算法设计。通常，将深度学习算法部署到目标边缘设备上并非易事。

目前，一些实时且易于部署的占用任务尝试已经展开。例如，Hou等人[82]提出了一种解决方案FastOcc，通过调整输入分辨率、视角转换模块和预测头来加速预测推理速度。Zhang等人[175]进一步轻量化了FlashOcc，通过分解其占用网络并使用二值化卷积对其进行二值化。Liu等人[118]提出了SparseOcc，这是一种没有任何密集3D特征的稀疏占用网络，通过使用稀疏卷积层和掩码引导的稀疏采样来最小化计算成本。Tang等人[90]提出采用稀疏潜在表示和稀疏插值操作，以避免信息丢失并降低计算复杂度。此外，Huang等人最近提出了GaussianFormer[154]，它利用一系列3D高斯函数来表示空间中的稀疏兴趣区域。GaussianFormer优化了3D高斯函数的几何和语义属性，对应于兴趣区域的语义占用。它仅使用最先进方法17.8%-24.8%的内存消耗，就实现了相当的准确性。然而，上述方法距离实际部署到自动驾驶系统中仍有一定距离。一个部署高效的占用方法需要在实时处理、轻量化设计和准确性方面同时具备优势。

5.3 鲁棒的3D占用感知

在动态且不可预测的现实驾驶环境中，感知的鲁棒性对自动驾驶车辆的安全至关重要。最先进的3D占用模型可能容易受到分布外场景和数据的影响，例如光照和天气变化会引入视觉偏差，以及车辆运动导致的输入图像模糊。此外，传感器故障（例如，帧丢失和摄像头视角丢失）也很常见[176]。鉴于这些挑战，研究鲁棒的3D占用感知具有重要意义。

然而，关于鲁棒3D占用的研究有限，主要是由于数据集的稀缺。最近，ICRA 2024 RoboDrive挑战赛[177]提供了不完美场景，用于研究鲁棒的3D占用感知。

在网络架构和场景表示方面，我们认为关于鲁棒BEV感知的相关工作[47, 48, 178, 179, 180, 181]可以为开发鲁棒占用感知提供灵感。M-BEV[179]提出了一个掩码视图重建模块，以增强在各种摄像头丢失情况下的鲁棒性。GKT[180]采用粗略投影来实现鲁棒的BEV表示。在传感器模态方面，雷达可以穿透雨滴、雾和雪花等小颗粒，在恶劣天气条件下提供可靠的检测能力。以雷达为中心的RadarOcc[182]利用成像雷达实现了鲁棒的占用感知，它不仅继承了毫米波雷达在所有光照和天气条件下的鲁棒性，还具有比毫米波雷达更高的垂直分辨率。RadarOcc在恶劣天气条件下展示了比以激光雷达为中心和以视觉为中心的方法更准确的3D占用预测。此外，在涉及自然因素的大多数损坏场景中，多模态模型[47, 48, 181]通常优于单模态模型，受益于多模态输入的互补性。在训练策略方面，Robo3D[97]从具有完整点云的教师模型中蒸馏知识到具有不完美输入的学生模型，增强了学生模型的鲁棒性。因此，基于这些工作，鲁棒3D占用感知的方法可以包括但不限于鲁棒的场景表示、多模态、网络设计和学习策略。

5.4 广义3D占用感知

尽管更准确的3D标签意味着更高的占用预测性能[183]，但3D标签成本高昂，且大规模的真实世界3D标注是不现实的。现有网络在有限的3D标注数据集上训练的泛化能力尚未得到广泛研究。为了摆脱对3D标签的依赖，自监督学习代表了实现广义3D占用感知的潜在途径。它从大量未标注的图像中学习占用感知。然而，当前自监督占用感知的性能[31, 38, 87, 91]较差。在Occ3D-nuScene数据集上（见表4），自监督方法的最高准确性远低于强监督方法。此外，当前的自监督方法需要更多的数据进行训练和评估。因此，增强自监督的广义3D占用感知是一个重要的未来研究方向。

此外，当前的3D占用感知只能识别一组预定义的对象类别，这限制了其泛化能力和实用性。最近，大语言模型（LLMs）[184, 185, 186, 187]和大视觉语言模型（LVLMs）[188, 189, 190, 191, 192]的进展展示了推理和视觉理解的强大能力。整合这些预训练的大模型已被证明可以增强感知的泛化能力[9]。POP-3D[9]利用强大的预训练视觉语言模型[192]训练其网络，并实现了开放词汇的3D占用感知。因此，我们认为使用LLMs和LVLMs是实现广义3D占用感知的挑战和机遇。

6 结论

本文对近年来自动驾驶中的3D占用感知进行了全面综述。我们详细回顾和讨论了最先进的以激光雷达为中心、以视觉为中心和多模态感知解决方案，并重点介绍了该领域的信息融合技术。为了促进进一步的研究，我们提供了现有占用方法的详细性能比较。最后，我们描述了一些开放的挑战，这些挑战可能会激发未来几年的研究方向。我们希望这篇综述能够为社区带来益处，支持自动驾驶的进一步发展，并帮助非专业读者了解该领域。

致谢

本研究工作在香港赛马会慈善信托基金资助的JC STEM机器学习与计算机视觉实验室进行，并部分得到香港特别行政区研究资助局的支持（项目编号：PolyU 15215824）。