自动驾驶如何通过占用网络识别非标准障碍物？

感知系统对于自动驾驶来说，就像是眼睛和翻译官的角色。这套系统不仅要捕捉到周围环境的光影信号，更需要将这些支离破碎的像素点转化为计算机能够理解的物理实体。

在自动驾驶领域，传统的感知方法长期依赖于“目标检测”这一理念。该方法通过在三维空间中识别特定物体并用长方体框将其标记出来，取得了在识别汽车、行人和自行车等常见目标方面的良好效果。

然而，现实中的交通场景远比实验室环境复杂。当道路上出现如侧翻的油罐车、散落的纸箱，或伸出吊臂的起重机时，传统方法往往难以应对。这些障碍物形状复杂、不规则，难以用标准的立方体框来准确描述。

为了解决这些“非标准障碍物”带来的识别难题，一种新的感知范式——占用网络应运而生。与传统目标识别方式不同，占用网络不再聚焦于物体的身份识别，而是将周围空间划分为大量边长为十几厘米的立方体，即“体素”，并判断每个体素是否被实际物体占据。

传统视觉感知面临哪些局限？

传统视觉感知在处理异形障碍物时存在明显短板。早期算法高度依赖物体分类，即系统必须先识别出物体是什么，才能判断其位置。这种方式在遇到结构异常的物体，如拉载长木材的拖挂车时，容易出现识别遗漏。

更严重的是，传统3D目标检测算法通常使用固定尺寸的立方体框来描述物体，难以处理可变形或非连续的物体。例如，洒水车喷出的水雾或工程车的吊臂，这些“悬空”状态的障碍物在传统方法中难以准确建模。

此外，传统感知技术还面临深度感知不足的问题。尽管可以通过算法从二维图像中推算三维坐标，但远距离场景下的误差难以控制。而激光雷达虽然精度高，但成本高昂，限制了大规模应用。

在这样的背景下，如何通过摄像头实现与激光雷达相当的空间建模能力，成为技术演进的重要方向。占用网络正是在这样的需求下，通过将感知空间提升至三维体素层面，为纯视觉方案提供了新的可能。

占用网络的核心思想是将车辆周围的物理空间全面“数字化”。它不再试图识别物体本身，而是关注于每个空间点是否被占据。

系统首先通过环视摄像头采集360度图像，再通过特征提取和映射，将二维图像信息转化为三维向量空间中的体素网格。在这一过程中，Transformer架构发挥了重要作用，通过注意力机制识别不同视角下同一空间点的图像信息，从而构建出稠密的三维感知模型。

与传统的点云数据相比，占用网络的体素网格不仅包含物体表面信息，还记录了空间的占据状态。这种连续性使得系统能够更精确地判断障碍物的实际轮廓。

特斯拉的占用网络能够在约10毫秒内完成全局空间的预测，这一速度远超人类反应极限。系统会为每个体素赋予占据概率，并根据阈值判断是否作为障碍物进行避让。

为了兼顾计算效率与精度，占用网络采用“按需分配”的策略，在关键区域划分更细的体素，而在远离路径的区域则使用较粗的网格，从而实现资源的最优配置。

此外，占用网络还引入时序融合机制，通过分析过去数十至数百毫秒的视觉信息，提高预测的稳定性和连续性。这种跨时间的分析使系统不仅具备空间理解能力，也具备对物体运动趋势的基本判断。

占用网络最大的优势之一，就是对“长尾障碍物”具有高度鲁棒性。相比传统方法，占用网络对物体的外观、类别不敏感，仅关注空间是否被占据。

这种“几何优先”的感知方式，使得系统能够识别如翻倒的洒水车、散落的建筑材料或横在路中央的断树等形状复杂的目标，而不会试图用标准方框去拟合。

占用网络还天然具备处理“悬空障碍物”的能力。在传统BEV技术中，所有信息被压缩在二维平面，难以区分地面与空中的物体。而占用网络通过Z轴的分层体素划分，能够精准识别如限高杆、低垂树枝等悬空结构。

此外，占用网络还具备一定的“遮挡预测”能力。当大货车挡住视野时，系统可通过学习到的几何规律，合理推断其后方是否存在潜在障碍，从而为规划器提供更全面的感知信息。

在占用网络的基础上，进一步引入了“占用流”机制，用以描述每个体素在时间维度上的移动状态。通过分析这些体素的运动矢量，系统可以预测周围物体的轨迹。

占用流的引入，使得系统在处理如行人突然横穿、车辆紧急变道等复杂场景时，能够更快做出反应。相比传统方法中漫长的识别-预测链条，占用流直接基于体素状态变化进行判断，提升了系统的实时响应能力。

在模型训练方面，行业普遍采用NeRF等离线三维重建技术，利用大规模视觉数据在云端生成真实场景，并以此作为标注数据用于训练车载模型。这种“云端建模-车端预测”的闭环机制，进一步提升了占用网络的泛化能力。

查看全文

作者最近更新