来源:九章智驾
一、什么是城区导航智能驾驶

图1 2021年上海车展,华为-极狐城区导航智能驾驶首秀,在一段极端复杂路况下连贯,灵活的动作火爆全网。图片来自《42号车库》过往的作品。
(高精地图)(一般是高精地图范围内或者版本发布Geo Fence(地理围栏)内的)点到点智能辅助驾驶。
编者注:近来,也有不少公司开始尝试在城市导航智能驾驶方案中摆脱对高精地图的依赖,即所谓“重感知、轻地图”路线。
(类似的还有小鹏的LCC,华为-极狐的ICA)需要人类驾驶员接管介入的概率更低,整体体验更连贯、更灵活,更符合普通消费者对于“自动驾驶”的认知(见图1)
(为了描述方便,以下统一用ego代指配备了城区导航智能驾驶特性的“自车”)

图2 Traffic_light lane Association

图3 HD—MAP中海量的各种信息
(包括目标检测/跟踪/多传感器融合)(城区)(城区)(城区)
N:即Navigation:导航,对于城区智能驾驶场景经常被宣传为“ 点到点”
统一名称为城区导航智能驾驶。这个功能各家已经“跳票”好久,(城区)
那么城区导航智能驾驶技术是绝对的、当之无愧的“珠穆朗玛峰”。
二、为什么等了这么久之后,小鹏与华为-极狐又几乎同时释放了?
(NGP)

图4 小鹏与华为-极狐争夺城区导航智能驾驶首发排名
都不敢同时放开大量普通消费者使用,(猜测每家普通消费者数目得到体验入场券的人不会超过小几十个人,基本上选中了就可以回家买彩票了)
而蔚来、理想,甚至是刚刚开过AI DAY的着重笔墨讲城区智能驾驶的毫末智行,均未见量产产品踪影。
三、为什么各家对于释放城区导航智能驾驶都这么谨慎?
因为城区导航智能驾驶实在太难了。
如果把人类司机驾驶员的平均水平作为Ground Truth来比对,目前各家的城区导航智能驾驶在安全性、体验、效率均需要继续打磨。
城区导航智能驾驶是corner case的集散地,是长尾挑战的史前巨坑。(标志性的花盆顶激光造型)

图5 RoboTaxi公司典型的传感器布局
这里请有些同学收起来加州DMV的统计报告,那份报告中的MPI数据与其说是通过MPI比较各家公司的技术水平,不如说是通过MPI比较各家公司的道德水准。不过excel里面有些公司的disengage原因还是值得一看的,写的很真诚。
(有统计一线城市的平均通勤距离大概在每天30km左右)平均下来一天有1次紧急接管的可能性。
其对于系统表现的预见性与车辆操控的熟练度远远比不上被自家系统天天“训练”的Test Driver们。
这也就意味着,如果有100辆车开启了城区智能驾驶,每天的潜在可能的紧急接管数目在100次左右,如果有1000辆车,那么潜在的接管次数就是1000次左右。这个数据下,指望普通消费者像被自家系统天天“训练”的Test Driver们一样,在出现紧急情况下都能救回来显然是不现实的。
不过也不用过于悲观,Tesla FSD在闹市区的MPI是个位数,有兴趣的同学可以没事了去油管一个一个视频数数……注意油管上很多Tesla的测试路况其实比国内城区路况差得远,数的时候要大概挑一挑^_^
四、城区导航智能驾驶到底难在哪?
下面以为由易到难的排序,去描述城区导航智能驾驶的难题。
1. HD—MAP
高精地图其实本质上已经不是一个技术难题,而是一个成本难题。(人、车、骑行人、红绿灯结果)
这个原理跟家里的扫地机器人没有太本质的区别。(特别是计算机视觉)
这样会带来两个问题:
①这个异次元世界的表达与真实物理世界的贴合程度直接决定了城区导航智能驾驶的水平
即HD—MAP的制作工艺质量、反应现实世界元素的丰富程度、拟合现实世界人类开车习惯的准确程度直接决定了城区导航智能驾驶的水平。
ego在绝大多数情况下会沿着这条reference lane行驶,极其个别情况下,会做一些“看上去类人”的比如避障一类的操作。
(特别是路口,merge等道路拓扑复杂的场景下)(或者更大策略空间)

图6 在HD—MAP的Reference Lane中行驶的Ego
还不如说是“智能驾驶”小火车。

图7 “智能驾驶小火车”的轨道
(实际上真实世界中,人类开车处理环岛都很复杂)
如何在hd—map中合理、类人地表达这些人类社会中已经潜移默化约定俗成的开车习惯是非常困难的。
②真实物理世界路况的实时变化及时同步到异次元世界中非常困难
即维护高精地图“鲜度”成本极高,且现阶段城区导航智能驾驶技术不能很好处理这种情况,可能会导致严重后果。
这也是Tesla掌舵人Elon Mask频繁diss Waymo高精地图路线的关键原因。

图8 We briefly barked up the tree of high precision lane line [maps], but decided it wasn't a good idea. by Elon Musk
再加上国内城区道路基建与道路变化相当频繁,(要不怎么叫developing country,我没搞自动驾驶的时候从来不觉得国内的城市基建有这么频繁)
极端情况下,甚至会出现A路段在修路,地图情报部门通过种种渠道主动或者被动地得知以后,开始更新A路段的作业流:派出地图采集车采集,采集数据回传,地图融合制作,更新A路段Tile,转内部测试Bugfix,最后商用发布推送DOTA到车端,一套流程走下来操作猛如虎,最后发现A路段已经修路完成“恢复原状”……
(比如一周甚至是一天内)
那么Ego在接近这个弯道的时候,很可能会仍然沿着高精地图中的“直道”行驶,从而造成危险。
00:00而现阶段解决方式大家也都大同小异:使用实时感知到的静态道路信息作校验,(主要是车道线、道路结构拓扑、道路硬边界比如curb、红绿灯等)
比如在一些OEM的SOR/RFQ中,要求系统在发现HD—MAP“鲜度”不足时,ego可以按照实时感知的静态道路信息继续行驶而非直接退出智能驾驶系统。
可既然我们有一个“强于高精地图”的实时感知信息源,那还需要高精地图做什么呢?
就是使用实时众包构图的方式,
RoadMap: A Light-Weight Semantic Map for Visual Localization towards Autonomous Driving
(当时华为叫Roadcode-HD)不过在国内由于法律法规的限制,目前这种方式还没有大规模商用的先例(起码我没看见,如果有的话请评论区提醒下)
(Obj_Detection,Tracking,Mutli_Sensor Fusion)
(有一些人称之为“弱势场景”?)(甚至一个城市不同区)只要存在一个漏检,就是一次By force 的 Disengagement。

图9 各种奇怪的的红绿灯,甚至还有专门的Git(https://github.com/Charmve/OpenCC)
但Lidar并不是一个完美的传感器。
(阳光直射,雨天路面积水,高反障碍物,雨天黑车,超近距离盲区,烟尘雨雾)(鬼探头)
本质上都无法消除漏检、误检,甚至融合后的结果,都可能拉低原有的某单一传感器的检出表现,

图10 前向冗余传感器ROI内事故
而假设——
1、对于感知:我们不计成本,使用超高算力的SOC,堆叠各类Sensor形成冗余达到完美感知;
2、对于HD—MAP:在一个限定区域内不计成本,所有地图元素均人工标注,给出完全类人的语义信息,并假设能做到实时更新从而获得完美HD—MAP。
因为城区导航智能驾驶最难的部分,其实不是HD—MAP和感知,而是预测和博弈。
3. Prediction
(包括目标heading、速度、加速度、历史观测、目标类别等)(eg:他车在直行车道上,且为绿灯,大概率下来的运动趋势就会直行通过路口)(比如VRU即弱势道路参与群体会遵守红绿灯)(Trajectory,Reachable Set or Occupancy Grid)
大家依然可以举出无穷多的反例:(弱势道路参与群体)

图11 他车在直行车道上,但是没有直行,而是左拐了

图12 VRU没有遵守红绿灯,直接从遮挡中窜出,实际上这个case其实不是特别极限。
(弱势道路参与群体)
诚然,我们可以挤出来一些有限的SOC算力做一些例如行人Skeleton,甚至是Face Detection去给预测提供更多的信息,用以提升预测的准召;但基本可以想象,这也只能非常有限地提升预测模块的能力,而通过skeleton,face detection等肢体语言想准确的预测VRU的行为,可能要把三季lie to me 加入预测模型训练大礼包……
(Reaction Prediction或Social Interaction)
下面为了描述方便,将用词统一为“交互博弈”。
横穿的行人明显有一个发现ego以后停止的动作,并在较短时间内起步,再次穿行ego前方。

图片来自42号车库过往的作品。图14 这个场景,经常开车的同学应该很熟悉,很多时候我们开车,发现前方有一个人要横穿马路,踩下刹车,同时行人也看见了我们,也停止了。时间仿佛静止了1秒钟,你发现他没动,他发现你没动,于是你踩油门起步,他迈开腿前进,于是你踩刹车,他停止,于是奇妙的俄罗斯套娃开始了……
人类的博弈策略几乎完全无法公式化表达。

图15 实际上,VRU和人类司机一样,存在大量的Legal Norms之外的甚至是Social Norms之外的行为
这也就导致在城区智能驾驶场景下,只要还有人类这种交通参与者存在,就无法“安全地”实现城区导航智能驾驶,更别说一众robotaxi要做的“driver out”了。
可能需要所谓的“强人工智能”来解决了。
正是因为城区导航智能驾驶有上述这么多难题存在,很多问题其实连学界都还在研究,是属于问题本身都还没有明确定义的开放问题。本次小鹏,华为-极狐释放城区导航智能驾驶在“跳票”严重的情况下还如此谨慎,仅给极其个别的普通消费者开放,也就成为了意料之中的事情了。
五、与各家已经释放的高速导航智能驾驶相比,城区导航智能驾驶的系统策略有什么不同?
(特别是VRU)
对于高速导航智能驾驶而言,无论各家怎么宣传,其策略直白点说,都是驾驶体验大于行车安全。各家大可以说自己是L2系统,主体责任在驾驶员。
(甚至是系统已经识别并且显示出来的风险场景)
你能发现在驾驶tesla的过程中,大量的相邻车道车已经越线侵入Ego车道,甚至是在感知他车不准、heading严重摆动的情况下,ego没有任何反应而是维持原有行驶速度和轨迹前进。
而一旦进入城区,在城区导航智能驾驶的场景下,不论各家再怎么说自己是L2系统,承担L2系统的责任,其实都是非常苍白的了。
因为在城区场景下,因为任何一个与VRU的恶性事故,都几乎是一个车企或者供应商不可能承受的,这事实上已经进入了一个对L4级别自动驾驶车辆的要求范畴。

图16 2018年,49岁的Elaine Herzberg在坦佩市,亚利桑那州推着自行车过马路时被一辆正在路测的Uber自动驾驶汽车撞死,该事件直接导致Uber被吊销路测执照,最后整个自动驾驶团队解散
在城区导航智能驾驶需要cover的场景下,安全不再只是ego的安全,而是更多的要保证和Ego交互的城区内各式各样的VRU的安全,这就要求整个系统调教的大策略是安全大于驾驶体验。
(如何Trade off precision 和 recall?)(与VRU是否博弈?怎么量化场景处理的激进/保守程度?)
而这几年很火的数据闭环本质还是用“L2的思想”来解决城区这种L4要求的问题
(L2 VS L4)安全 >>> 行驶体验。
当然,数据闭环虽然不是城区导航智能驾驶的Silver Bullet,但是做做预标注什么的倒是挺好用的。
六、在这种情况下,普通消费者需要注意什么?
(包括Robotaxi公司)
那么所有厂商的城区导航智能驾驶绝对不能减轻你驾驶的负担,
请时刻关注路况并紧握方向盘!
整个业界都没有对城区导航智能驾驶的量产放行标准。各家厂商水平绝对参差不齐,
(这里不仅仅指的是城区智能驾驶)
请时刻关注路况并握紧方向盘!
而当人类逐步信任机器的时候,也恰恰也就是事故爆发的开端。
请无论如何熟读厂商给你的用户手册特别是有关智能驾驶的部分,熟悉系统的相关操作并使之成为肌肉记忆,熟知该厂商智能驾驶的弱势场景描述并在使用该功能时不断提醒自己。
总之,无论任何时候,请时刻关注路况并握紧方向盘!
在其智能驾驶章节对系统可能的问题与应对不了的场景有着非常详尽的罗列与描述、各种使用限制、错误与警告,
然而我认为,这才是对消费者负责任的态度。反观别的一些厂商的用户手册,这一部分的描述可以说一言难尽。以至于我甚至怀疑这些厂商到底有没有做过成系统成规模的泛化场景测试,他们自己到底知道不知道自己的系统有这么多不能处理的场景。

图19 小鹏P5手册中密密麻麻的限制与警告,华为-极狐中也有类似的繁琐章节描述
七、写在最后的话
未来的五年内,是国内城区导航智能驾驶内卷后大爆发的年份,各个公司都会以跑步前进的速度开放这个功能。我们每个在这个行业奋斗,以这个行业作为终生事业的从业者,都应该保持一颗清醒的头脑,本着对客户、消费者、行业负责的态度,推进智能驾驶走进千家万户。