在特斯拉做出来 Occupancy Network 的占用网络之后,再聊一下我认为的摄像头和激光雷达(LiDAR)之争:

目前来看,特斯拉的占用网络迭代非常快,而且已经到了非常高的可用性。这也是为什么特斯拉今天敢出来说要进一步砍掉超声波传感器,核心就是把 FSD Beta 中的占用网络拿出来,下放到量产车上去取代超声波。

简单说下超声波,有超声波的车,大部分的本车剐蹭都是左右两边,要不是轮毂,要不是门,前后的剐蹭很少。因为超声波是前 6 后 6 各 180° 的半圆形覆盖,而左右两边轮毂、门上都没有超声波,前后靠的近了系统就会越来越刺耳的叫——这非常合理,左右两边都有后视镜啊——但有的人开车不看啊。

特斯拉说不用超声波,很多人认为 Elon Musk 疯了,等着大规模出事吧,理由是特斯拉没有做 360 的环视摄像头,离车最近的地方有盲区。

其实理论上来说,这个应该不是问题。因为特斯拉在 AI Day 上说得很明白,占用网络里是调用了汽车的里程计数据对接时序信息的。

也就是说,系统不是通过摄像头看到距离车 5 cm 的位置直接输出的,而是在距离车 100 cm 的位置开始计算,通过速度、时间推算出车再前进或后退多少,剩余距离是多少。

简单一句话:理论上,通过看得见的距离结合车辆的速度+时间是可以计算出看不见的距离的。

那么下一个问题是,超声波可以显示到厘米级,摄像头的精度够吗?

这个问题,我真的问过了太多人。前华为苏箐、极氪陈奇、小鹏吴新宙、理想李想,大家观点基本一致,摄像头测距的特点就是,距离越近越精确,随着距离越来越近,摄像头测距的精确性甚至可以超过激光雷达。

所以特斯拉不用超声波,用视觉做泊车辅助,我是谨慎偏乐观的。

那再说激光雷达,激光雷达的问题是什么,其实目前很多激光雷达的输出都是 10 Hz,这是一个 Bug。

我们看特斯拉在做城市的时候,转向了基于时序信息的 360° 视频流。这里特斯拉的摄像头是 36 Hz 的输出。因为你一旦做城市马上就会发现,那些突发的鬼探头、各种复杂路口的博弈时机都是转瞬即逝的。特斯拉传感器输入做得越来越快,本质上是在为后面的感知和规控处理争取时间。

这个时候激光雷达的 10 Hz 还要在传感器融合层和摄像头做时间同步,很扎心,越往后越难堪大用。

这么说好像激光雷达就完全没必要存在了一样?其实计算机视觉目前也还是有一个 Bug 的。摄像头测距,距离越近越精确,反过来,距离越远越模糊。

那这里就有一个 Corner Case 了:如果我是跑在高速上,怎么办?也就是我的需求就是必须在很远的距离外就能感知到非典型障碍物,怎么办呢?

Autopilot 不存在这个问题,因为驾驶员会看,FSD Beta 就必须要解决这个问题了。

当然,占用网络也还在不断的迭代,激光雷达也是一样。我甚至也不觉得特斯拉会死守 8 个摄像头的感知方案,特斯拉死守的大概是「解决自动驾驶的基本硬件配置」,不浪费但其实也不能有缺失。

如果摄像头有绝对无法解决的场景,HW 4.0 加什么传感器回来都不意外。