特斯拉 Autopilot 软件工程总监 Ashok Elluswamy 在 CVPR 2022 上发出来的 FSD Beta 最新的感知架构,时隔一年,和去年 Andrej Karpathy 时代的感知架构大的框架一致,深入到细节调整也不少。

名称也微调了~,虽然没啥区别,Andrej 叫 Occupancy Tracker,Ashok 这次叫 Occupancy Networks:

  • 预测几何占用率

这个就是前几天大疆官微说的「任意障碍物的识别与应对」,本质是用摄像头实现 LiDAR 的感知性能。

  • 使用多摄像头和视频流进行预测

就是 Elon Musk 之前说的 4D 架构,基于时间序列的视频流。

  • 预测动态占用流

不解释。

  • 持续跟踪遮挡的障碍物

举个例子,一个人从左往右过马路,走到了左前大巴前面,大巴完全挡住,2D 感知里这人就跟丢了,消失了;Occupancy Networks 知道这人走到一半被大巴挡住了,还在往右走,马上会出现在本车前方,所以会谨慎做规划控制。跟人一样联想预测。

  • 重点位置高分辨率

稀疏化计算,同样模仿人类大脑。

人在开车的时候,其实并不是全局视野分享全部的注意力,而是只关注整个视野内少数重要的部分,而且重点在持续动态变化。

比如常规是关注前方的车辆,突然冲出来一个老头乐插进来,这个老头乐立马吸引最高的注意力——同时前方车辆的关注其实下降了~而且人开车的时候,在持续录入看到的信息的同时,也在飞快的忘掉没用的信息。

这是因为人的内存和算力都有限,所以进化出了极为高效的稀疏计算方式,抓大放小,只关注真正影响全局,会导致驾驶决策改变的部分。

  • 高效的内存和计算

正如前面,稀疏计算,再加上一些底层软件工程和通信的优化,效率很高。

  • 运行速率约为 10 毫秒

这个指标主要是考虑到复杂的交叉路口和拥堵的大型停车场,对低延迟的要求极高。因为没有 HD Map 这样的先验信息,时间紧,任务重,实时的感知和决策。

没啥可说的,这是目前量产车上最领先的智能驾驶感知架构,没有之一。

https://www.youtube.com/watch?v=jPCV4GKX9Dw