为什么选择OCC
约 828 字大约 3 分钟
occbev
2025-04-24
多任务感知
模型复杂度高:多任务感知模型需要同时处理多个任务,或者使用多个模型。如目标检测、语义分割、车道线检测等,这使得模型的结构更加复杂。例如,一些模型需要构建多个任务分支,每个分支都有自己的网络结构和参数,导致整个模型的参数量大幅增加。
计算负担重:复杂的模型结构带来了沉重的计算负担,需要更强大的硬件支持。在实际应用中,这可能导致系统的响应速度变慢,无法满足自动驾驶对实时性的要求。
性能提升受限:由于任务间的冲突和信息丢失等问题,多任务感知模型的性能提升受到限制。
bev
BEV检测任务主要完成语义清晰,型状稳定的通用几何目标的检测识别,比如小轿车、货车、自行车、骑车人、行人、禁停标志等等
- 大多数对象处于相同的水平水平面上,具有较小的重叠,生成绝对尺度和无遮挡的环境描述。
- BEV感知为多源信息融合(例如,来自不同视角、模态、传感器和时间序列的信息)和众多下游应用(例如,可解释的决策制定和运动规划)提供了统一的表示空间。
表示有限:无垂直方向的信息
检测有限:长尾效应、细粒度问题
- 但检测领域会有明显的长尾效应,比如截断目标、形状不规则、未有清晰语义的目标(比如挂车、树木、垃圾、以及石子等),或颜色纹理非常奇怪。传统的3D检测在这类场景上很容易失效,此时的检测任务可能无法准确建模,出现误检和漏检。
- 2D或者2.5D视频约束问题:非立体的平面目标画像问题:难以对应到真实3D场景,难区分静态和动态目标
- 2D目标固定框问题:难以识别悬挂或者悬空的障碍物(可能不在目标检测框内,例如卸货卡车的千斤顶支撑架,卡车货架顶上的人梯等)
- 依赖数据集的类别标注,不常见的物体类别没被标注,从而导致无法被检测出来
occ
Occ任务则更关注通用几何信息,不过度区分语义,更体现空间是否“被占用”,而不是完整的长宽高信息。这样的网络能够轻松解决截断目标、形状不规则、未有清晰语义的目标检出问题,和BEV检测相互配合,形成感知闭环。
捕捉了2D BEV忽略的垂直结构
Occ的真值数据标注与生成存在一定的难度,因为数据的生成与优化很大程度上影响Occ模型的检测性能
- Occupancy真值通常不会直接进行人工标注,因为直接人工标注的难度较大,往往需要借助3D box的位置和语义信息间接生成。