自动驾驶如何通过占用网络识别非标准障碍物?
自动驾驶如何通过占用网络识别非标准障碍物?
在自动驾驶领域,传统的感知方法长期依赖于“目标检测”这一理念。该方法通过在三维空间中识别特定物体并用长方体框将其标记出来,取得了在识别汽车、行人和自行车等常见目标方面的良好效果。
然而,现实中的交通场景远比实验室环境复杂。当道路上出现如侧翻的油罐车、散落的纸箱,或伸出吊臂的起重机时,传统方法往往难以应对。这些障碍物形状复杂、不规则,难以用标准的立方体框来准确描述。
为了解决这些“非标准障碍物”带来的识别难题,一种新的感知范式——占用网络应运而生。与传统目标识别方式不同,占用网络不再聚焦于物体的身份识别,而是将周围空间划分为大量边长为十几厘米的立方体,即“体素”,并判断每个体素是否被实际物体占据。
传统视觉感知面临哪些局限?
传统视觉感知在处理异形障碍物时存在明显短板。早期算法高度依赖物体分类,即系统必须先识别出物体是什么,才能判断其位置。这种方式在遇到结构异常的物体,如拉载长木材的拖挂车时,容易出现识别遗漏。
更严重的是,传统3D目标检测算法通常使用固定尺寸的立方体框来描述物体,难以处理可变形或非连续的物体。例如,洒水车喷出的水雾或工程车的吊臂,这些“悬空”状态的障碍物在传统方法中难以准确建模。
此外,传统感知技术还面临深度感知不足的问题。尽管可以通过算法从二维图像中推算三维坐标,但远距离场景下的误差难以控制。而激光雷达虽然精度高,但成本高昂,限制了大规模应用。
在这样的背景下,如何通过摄像头实现与激光雷达相当的空间建模能力,成为技术演进的重要方向。占用网络正是在这样的需求下,通过将感知空间提升至三维体素层面,为纯视觉方案提供了新的可能。
占用网络如何构建场景理解?
占用网络的核心思想是将车辆周围的物理空间全面“数字化”。它不再试图识别物体本身,而是关注于每个空间点是否被占据。
系统首先通过环视摄像头采集360度图像,再通过特征提取和映射,将二维图像信息转化为三维向量空间中的体素网格。在这一过程中,Transformer架构发挥了重要作用,通过注意力机制识别不同视角下同一空间点的图像信息,从而构建出稠密的三维感知模型。
与传统的点云数据相比,占用网络的体素网格不仅包含物体表面信息,还记录了空间的占据状态。这种连续性使得系统能够更精确地判断障碍物的实际轮廓。
特斯拉的占用网络能够在约10毫秒内完成全局空间的预测,这一速度远超人类反应极限。系统会为每个体素赋予占据概率,并根据阈值判断是否作为障碍物进行避让。
为了兼顾计算效率与精度,占用网络采用“按需分配”的策略,在关键区域划分更细的体素,而在远离路径的区域则使用较粗的网格,从而实现资源的最优配置。
此外,占用网络还引入时序融合机制,通过分析过去数十至数百毫秒的视觉信息,提高预测的稳定性和连续性。这种跨时间的分析使系统不仅具备空间理解能力,也具备对物体运动趋势的基本判断。
占用网络如何识别“看不见的风险”?
占用网络最大的优势之一,就是对“长尾障碍物”具有高度鲁棒性。相比传统方法,占用网络对物体的外观、类别不敏感,仅关注空间是否被占据。
这种“几何优先”的感知方式,使得系统能够识别如翻倒的洒水车、散落的建筑材料或横在路中央的断树等形状复杂的目标,而不会试图用标准方框去拟合。
占用网络还天然具备处理“悬空障碍物”的能力。在传统BEV技术中,所有信息被压缩在二维平面,难以区分地面与空中的物体。而占用网络通过Z轴的分层体素划分,能够精准识别如限高杆、低垂树枝等悬空结构。
此外,占用网络还具备一定的“遮挡预测”能力。当大货车挡住视野时,系统可通过学习到的几何规律,合理推断其后方是否存在潜在障碍,从而为规划器提供更全面的感知信息。
占用流如何实现动态预测?
在占用网络的基础上,进一步引入了“占用流”机制,用以描述每个体素在时间维度上的移动状态。通过分析这些体素的运动矢量,系统可以预测周围物体的轨迹。
占用流的引入,使得系统在处理如行人突然横穿、车辆紧急变道等复杂场景时,能够更快做出反应。相比传统方法中漫长的识别-预测链条,占用流直接基于体素状态变化进行判断,提升了系统的实时响应能力。
在模型训练方面,行业普遍采用NeRF等离线三维重建技术,利用大规模视觉数据在云端生成真实场景,并以此作为标注数据用于训练车载模型。这种“云端建模-车端预测”的闭环机制,进一步提升了占用网络的泛化能力。
查看全文
每天懂一传感器



评论0条评论