自动驾驶如何通过占用网络识别异形障碍物

不颓废科技青年 20260507

三维建模

感知系统对于自动驾驶来说，就像是眼睛和翻译官的角色。这套系统不仅要捕捉到周围环境的光影信号，更需要将这些支离破碎的像素点转化为计算机能够理解的物理实体。

自动驾驶如何通过占用网络识别异形障碍物

在自动驾驶技术发展初期，主流的感知方式是“3D目标检测”。该方法通过在三维空间中识别特定对象，并将其包围在一个紧凑的长方体框内，以完成对环境的理解。这种方案在识别车辆、行人和自行车等常见目标时表现良好，能够清晰地给出目标的尺寸和位置。

然而，现实交通环境远比实验室中预设的标签库复杂得多。当道路上出现侧翻的油罐车、散落的纸箱或悬空的起重机吊臂时，传统检测方法因其对规则形状的依赖而显得力不从心。这些异形障碍物难以用标准的长方体框精确描述，导致感知系统在面对它们时性能明显下降。

为应对这一挑战，研究者提出了一种新的感知范式——占用网络（Occupancy Network）。与传统的“识别物体”思路不同，占用网络不再专注于目标的语义分类，而是将整个空间划分为数以亿计的微小立方体单元（即“体素”），并判断每个体素是否被物理实体占据。

这种由“目标识别”转向“空间建模”的思路，使得自动驾驶系统具备了识别任意形状障碍物的能力，无论其是否出现在训练数据集中。

传统视觉感知的局限性

在深入探讨占用网络之前，有必要回顾传统视觉感知在面对异形障碍物时的不足。早期自动驾驶系统依赖于“分类”逻辑，即系统需要先明确识别物体的类别，才能判断其位置和属性。这种机制在处理“语义裂缝”或“本体裂纹”（即物体形态超出系统知识库的范畴）时表现脆弱。

例如，如果系统训练集中只包含标准货车，那么当它遇到一辆拖挂长木材的卡车时，可能会忽略掉车厢后方延伸出的部分。这种空间理解的缺失，可能导致规划模块误判环境状态，从而在变道或避让时引发事故。

此外，传统3D目标检测还面临“形状刚性”的挑战。系统试图用固定尺寸的长方体包裹所有目标，但在现实交通中，很多障碍物是可变形或非闭合的。例如，洒水车的水雾、工程车的悬空吊臂等，都无法通过传统方法准确建模。

这种对空间细节的粗糙处理，使得车辆在狭窄道路、施工现场等复杂环境中容易出现“过于谨慎”或“过于鲁莽”的行为，影响行车的安全性和流畅性。

另一个问题是深度信息的缺失。虽然可以通过算法从二维图像中推断出三维坐标，但远距离场景中的误差会大幅增加。激光雷达虽然能提供高精度的深度测量，但其高昂的成本限制了其在大规模自动驾驶部署中的应用。

因此，如何利用成本低廉的视觉传感器实现接近激光雷达的三维空间建模能力，成为感知技术发展的重要方向。正是在这样的背景下，占用网络应运而生。

占用网络如何实现空间建模

占用网络的核心思想是将车辆周围的物理空间“数字化”。它不再关注物体的类别，而是专注于判断特定空间位置是否被占据。通过这种方式，系统可以构建出一个高精度的三维体素网格，用于描述整个环境。

为了实现这一目标，系统首先采集环视摄像头的360度图像，并通过特征提取技术，将这些二维视觉信息映射到三维空间中。这一过程中，Transformer架构起到了关键作用。它通过多视角注意力机制，识别来自不同视角的图像中指向同一空间点的像素，并在系统内部构建出一个特征丰富的三维网格。

与传统的点云数据相比，占用网络生成的体素网格具有更高的密度和连续性。点云仅记录物体的表面反射点，而体素网格则能描述空间的占据状态，从而提供更完整、更精确的环境建模。

以特斯拉的占用网络为例，其能够在10毫秒内完成一次完整的空间预测，这一速度远超人类的反应时间。系统将世界划分为极小的立方体单元，并为每个单元赋予一个“占据概率”。一旦某个位置的占据概率超过设定阈值，系统就会将其标记为障碍物，并在路径规划中自动规避。

为了在有限的算力和内存资源下实现高效运行，占用网络采用了“按需分配”的策略。在车辆附近的区域，体素划分更为精细，可以识别出路面上的小型障碍物；而在视野边缘或天空等不影响行驶的区域，则采用较粗的网格以节省计算资源。

此外，占用网络还引入了时序融合机制，通过综合分析当前和过去几毫秒的视觉信息，提高预测的鲁棒性。这种跨帧特征比对不仅能有效去除噪声，还能帮助系统理解物体在空间中的运动状态。

这种时空结合的感知方式，使得车辆不仅具备“立体感知”，还拥有了一定的“物理直觉”。例如，当系统检测到一组体素快速向前移动时，它能够判断其为动态交通参与者，而非静态障碍。

占用网络如何应对不可见风险

占用网络最大的优势在于其对“长尾障碍物”和异形物体的高鲁棒性。在传统感知框架下，这些非标准障碍物几乎无法被识别。然而，占用网络并不依赖物体的外观或语义类别，它只关心空间点是否被遮挡。

这类似于在黑暗中用手摸索障碍：传统方法需要识别物体的种类才能避开，而占用网络只需要知道“手伸不过去”，就能做出反应。这种“几何优先”的逻辑，使得系统能够精准描绘出障碍物的三维轮廓，无论是翻倒的洒水车、散落的建筑材料，还是横在路中的断树。

占用网络在处理“悬空障碍物”方面也表现出色。在传统BEV（鸟瞰图）架构下，所有物体都会被投影到二维平面上，系统难以区分物体是悬空的还是贴地的。而占用网络通过对高度轴（Z轴）的精细划分，能够识别出限高杆、横跨路面的桥梁、低垂的树枝等悬空结构。

这种对空间的精确建模，使车辆能够判断哪些空间可以安全通过，哪些必须绕行，从而在复杂立交桥或施工现场中表现出接近人类驾驶员的直觉。

此外，占用网络还具备“脑补”能力，能在视觉被遮挡的区域进行空间推理。例如，当一辆大车遮挡住后方视野时，系统可以通过学习到的几何先验知识，预测被遮挡区域是否存在其他障碍物，从而为路径规划提供更全面的环境信息。

占用流如何提升动态预测能力

如果说占用网络解决了空间感知问题，那么“占用流”（Occupancy Flow）则进一步赋予了系统对动态环境的预测能力。

占用流不仅记录每个体素是否被占据，还追踪其运动矢量。通过分析这些矢量的大小和方向，规划模块可以精准预判周围物体的运动轨迹。

占用流的引入，相当于在三维空间中引入了物理守恒的概念。系统意识到，一个体素若在某一时刻被占据，下一时刻要么保持原位，要么移动到相邻位置。这种局部连续性的假设，使得系统在处理紧急变道、行人突然穿行等高风险场景时，能够比传统目标追踪方法更快做出反应。

占用网络不再需要经历“识别-跟踪-预测”的复杂链条，而是直接观察空间状态的变化趋势，实现毫秒级的响应。这种高效决策能力，往往成为避免碰撞的关键。

在模型训练方面，占用网络利用了诸如NeRF（神经辐射场）等前沿技术进行自动标注。车辆在行驶过程中通过众包方式收集大量视觉数据，云端使用NeRF技术重建出高精度的3D场景，并作为“真值”用于训练车载模型。这种“云端建模、车端预测”的闭环机制，显著提升了占用网络的泛化能力。

查看全文

不颓废科技青年

作者最近更新

自动驾驶如何通过占用网络识别异形障碍物

自动驾驶如何通过占用网络识别异形障碍物

传统视觉感知的局限性

占用网络如何实现空间建模

占用网络如何应对不可见风险

占用流如何提升动态预测能力

不颓废科技青年

期刊订阅

Facebook演示VR虚拟化身的逼真眼神、表情组合

无人机倾斜摄影三维建模技术助力整体智慧城市空间数据的搭建

为何说离开工业软件，“中国制造2025”只是空想？

7分钟看懂激光雷达 LiDAR 发展简史及其应用（有趣直观！）