占用网络如何提升自动驾驶对异形障碍物的识别能力

感知系统对于自动驾驶来说，就像是眼睛和翻译官的角色。这套系统不仅要捕捉到周围环境的光影信号，更需要将这些支离破碎的像素点转化为计算机能够理解的物理实体。

在自动驾驶感知技术的发展初期，行业普遍采用的是“3D目标检测”方法。该方法通过在三维空间中识别并框选出特定物体，例如汽车、行人或自行车，以紧凑的长方体形式表示其位置和尺寸。这种方式在常规场景中表现出色，能够有效识别出车辆前方的障碍物。

然而，真实道路环境远比实验室中的预设场景复杂。当道路上出现如侧翻的油罐车、散落的纸箱，或伸出吊臂的起重机等非标准形状障碍物时，传统目标检测算法常常难以准确建模。这些物体形状不规则，难以用统一的三维长方体框精准描述。

为了解决这一难题，研究者提出了“占用网络”（Occupancy Network）的概念。与传统方法不同，占用网络不专注于识别物体类别，而是将整个空间划分为许多微小的立方体——体素（Voxel），每个体素的边长通常为十几厘米。系统只需判断每个体素是否被物理实体占据，从而实现对空间的精确建模。

这种从“目标检测”转向“空间占据预测”的思路，使得自动驾驶系统能够识别各种形状的障碍物，包括那些在传统分类模型中“不在名单上”的物体。

在深入理解占用网络之前，有必要先回顾传统视觉感知方案在面对异形障碍物时的局限性。早期的自动驾驶系统依赖“分类”逻辑，即必须先识别物体类别，才能确定其位置。这种模式在面对“语义裂缝”时表现脆弱，容易遗漏或错误判断。

例如，训练集中若全是标准货车，系统在遇到拖挂车尾部延伸出的木材时，可能仅将车头和车厢识别为一个长方体，而忽略掉尾部的延伸部分。这种空间理解的缺失可能导致路径规划错误，引发碰撞。

此外，传统3D目标检测在处理变形或中空物体方面存在困难。以施工洒水车为例，其喷洒的水雾或吊臂悬空状态难以用固定长方体建模，导致系统误判空间可通行性。

视觉感知还面临深度信息缺失的问题。虽然可以通过算法将二维图像转换为三维坐标，但在远距离场景中误差显著增加。尽管激光雷达可以提供高精度的距离数据，但其高昂的成本限制了其在自动驾驶中的广泛应用。

正是在这样的背景下，占用网络应运而生，通过将感知空间从二维提升到三维体素，为纯视觉方案提供了更全面的感知能力。

占用网络的核心思想是将物理环境“数字化”。它不再依赖于物体语义的理解，而是聚焦于判断“某个空间点是否被占据”。通过环视摄像头采集360度图像数据，并利用特征提取方法，将图像映射到三维向量空间。

在这一过程中，Transformer架构发挥了关键作用。它通过注意力机制实现空间位置的多视角对齐，帮助系统构建出一个密集且特征丰富的三维体素网格。

相比传统的点云数据，占用网络生成的体素网格具有更高的连续性和密度。它不仅记录物体表面，还包含空间占据状态，从而实现更细致的空间建模。

特斯拉的占用网络可在约10毫秒内完成一次空间预测，远超人类反应速度。系统将世界划分为大量体素，并为每个体素赋予“占据概率”。当某个体素概率超过设定阈值时，系统将其识别为障碍物，并在路径规划中绕行。

为了在资源受限的车载芯片上实现高效运算，占用网络采用了“按需分配”策略。即在车辆行驶路径附近采用更精细的体素划分，而在远处则使用较粗的网格，以节省计算资源。

此外，占用网络通过引入时序融合机制，提升了空间预测的鲁棒性。系统不仅分析当前帧数据，还会参考过去几十毫秒内的特征流，实现更稳定的障碍物检测和轨迹预测。

占用网络在识别长尾障碍物方面表现出色。由于其专注于空间占据状态，而非物体语义，因此对异形障碍物具有更高的鲁棒性。例如，翻倒的洒水车、散乱的建筑材料，甚至是横在路中的断树，系统都能准确建模，而不会强行将其套入固定形状。

此外，占用网络在处理悬空障碍物方面具有天然优势。传统BEV架构易将物体“压扁”到二维平面，难以区分物体是悬空还是贴地。占用网络通过Z轴多层划分，可清晰识别路面隔离带与限高杆之间的空间关系，从而为车辆提供更准确的通行建议。

占用网络还具备“脑补”能力，特别是在处理遮挡场景时。当大货车遮挡部分视野时，系统能利用深度学习的几何先验，合理推测被遮挡区域的占据状态，从而提升避障安全性。

除了静态空间建模，占用网络还引入了“占用流”（Occupancy Flow）概念。占用流不仅能识别空间占据状态，还能提供体素的运动矢量，用于预测周围物体的运动趋势。

占用流的引入，使系统具备了物理世界的运动守恒意识。例如，系统能判断某一空间点下一刻是否仍被占据，或是移动到相邻体素。这种局部连贯性约束，提升了系统在紧急场景下的响应能力。

与传统目标追踪方法相比，占用流无需经历识别-追踪-预测的长链条流程，而是直接观察体素占据状态的动态变化。这种低延迟响应能力，有助于系统在毫秒级时间内做出避障决策。

在训练方面，占用网络依赖于“NeRF（神经辐射场）”等技术进行自动标注，实现云端重建与车端预测的闭环。通过众包视觉数据和云端建模，占用网络能够持续优化其泛化能力，适应不断变化的道路环境。

查看全文

作者最近更新