在以上呈现的一共13条的Release note当中,Tesla的FSD beta团队展现了一种独特的量化风格——其中的5条共提供了7处精准的性能改善百分比数字。这里面既包含感知部分的性能提升,也包含规划和控制部分的性能进步。如果再往前追溯FSD beta在v10以来一共十几个子版本(小编:似乎FSD beta在v10这个大版本阶段已经停留很久了,前所未有)中,涉及精准的性能改善百分比数字更是琳琅满目覆盖自动驾驶体系的方方面面。我们不禁要问why and how,Tesla提供如此具体的性能改善指标?
前段时间知乎上曾经有一个广泛受到关注的问题,大意是问“对于自动驾驶行业来说,具备哪种核心的技术能力最为关键?”各种回答几乎覆盖了所有自动驾驶的技术环节,从数据规模到训练方法,再到感知、规划和控制模块,以及各种琳琅满目的传感器和车载计算机、道路覆盖车用网络…… 每一个细分的技术赛道上都有为数众多的拥趸。但似乎没人关注的是这样一个事实,不论哪一种技术细节,都是建立在“体系”的基础之上的,只有选择确立自动驾驶系统的“体系”在先,后续发展的各种模块技术才能在体系下协调发展。所以小编的观点是:单一评论哪一种细分技术在自动驾驶系统中的重要性没有具体的实际意义,“体系”建设和技术风格的确立,对于长期竞争力的培育才是最重要的。
回到Tesla FSD beta v10.11.2的Release note这个主题上,我们确实看到Tesla依然在坚定地走在:广泛的量产车型+单纯的视觉感知+丰厚的仿真和训练平台=通畅且封闭的数据平台基础之上的。我们在两三年前第一次Tesla AI Day 2019上看到的这个“老掉牙”的Data Engine数据架构,依然是Tesla自动驾驶体系发展的核心框架。
图一【Tesla FSD beta v9-43.png】
在过去的两年时间里,通过越来越多的信息披露,我们对于Tesla的Data Engine有了更多较为具体的理解。比如从庞大的存量车队中如何激发Inaccuracy状态数据上报的机制;Boost倍增后的海量相似场景如何实现自动标注;以及Tesla逐渐曝光的训练平台Dojo等等。但Tesla一直维持着关键的技术节点属性不变(小编:坚持纯视觉传感器路线不变,甚至取消了典型的车载雷达),而仅仅做部件规格和性能上的提升,就可以坚持在自己的Data Engine平台上逼近L4。
可能有很多从业同行已经厌倦了大嘴巴的Elon Musk激进风格,不着边际的承诺一次又一次落空。但与此同时我们也应该注意到,在领先的自动驾驶技术公司中,Tesla是唯一的技术路线上坚定、市场策略上一贯,客观上也能同时在量产产品和FSD beta测试范围内保持不停顿的技术迭代的技术实体……从这个角度看,毫不夸张地说,堪称硕果仅存。所以,产业内外与其把关注的焦点放在Elon Musk又吹了多少次牛皮、承诺的升级节点迟迟不能兑现上,不如把注意力集中在如何看待Tesla在发展过程中,呈现出来越来越多浮出水面的技术线索上。
图二【Tesla FSD beta v9-41.png】
上图2为例,这是一年前当Tesla决定在FSD beta版本上完全放弃Radar之后所做出的技术说明。我们在当期公众号文章《联结主义AI技术在Tesla Vision技术体系中的地位和未来》有相对详细的部分参数介绍,感兴趣的读者可以移步。这些具体的Triggers参数的重要性在于,它让我们认识到Tesla是如何同时在规模庞大的保有车队中(200万辆规模)和活跃度颇高的FSD beta测试车队中(2000辆规模)抓取关键数据的,而非泛泛的所谓“阴影模式”。
从搜集人类驾驶员关键驾驶行为和策略的shadow mode,到当研发团队决定对雷达传感器做减法时,可以定制和搜集的各种对于视觉传感器的“校准数据”Trigger。这种不变应万变的数据闭环能力,恰恰是以机器学习为主的AI的核心要义:只要保证数据搜集的渠道畅通、数据质量足够好,Tesla就会一直前进。
TeslaFSD beta v10.11.2实测表现亮点
空口无凭,我们在本期文章里还是以FSD beta v10.11.2的实际道路测试观测为主要内容。在我们能能找到的公开道路测试结果中,去逐一“视觉验证”v10.11.2的release note是否真的涉及如此众多的技术改善,以及改善效果?我们选择了画面质量和记录视角一贯是最好水平的@Frenchie,请跟着小编一起观察FSD beta进化证据的关键细节。
1 Creeping profile with higher jerk:
视频中,当车辆抵近丁字路口并观察到合适的并入机会时,以往FSD beta中的保守creep动作(小编:creeping,是一种缓慢地、保守地递进观察和进入路口区域的低速行驶行为)被取代为更激进和快提速Jerk的左转进入行为。小编相信这个变化是因为对历史上FSD beta各版本的行为数据观察之后得到的修正,也更符合人类驾驶习惯。在城市道路环境下(小编:视频的实测地点是芝加哥闹市区),犹犹豫豫将会造成局部的交通拥堵和事实上的不安全境地。
这种creeping行为的明显改善,或者说果断,符合FSD beta v10.11.2的release note中的第六条:-6 Improved creeping profile withhigher jerk when creeping starts and ends.//小编:改善了车辆进入路口时的creeping profile,增加了更快提速的选项;
2 Improved right-of-way understanding:
视频中,当车辆行驶在芝加哥较为常见的城市轨道交通支架下行线时,遭受着视觉和电磁信号的双重恶劣驾驶环境。视觉干扰来自穿透铁轨投射在路面上的点线阳光耀斑,和路面白色道路分割虚线类似,对于FSD的视觉系统构成非常的考验;电磁信号的恶劣环境同样是由于铁轨系统造成的,巨大的钢结构和道路两侧的高大建筑物是GPS信号的致命破坏,这是“城市峡谷”+“钢结构屏蔽效应”的叠加。实际上车主Frenchie在路测中也抱怨Tesla Model 3的GPS系统在芝加哥的闹市区经常出错,由于不可忽视的定位误差,有时会导致Waypoint路径点之间的线路受到错误定位的影响而进入重新路径计算。
实际上我们在视频4中也可以看到,当Model 3车辆穿越十字路口时,由于需要即时判别新进路段的道路结构,尤其是在光线的干扰下,Model 3的FSD beta选择了降速,并明显有变道行为来修正之前的识别误差。
这种right-of-way的对于外部环境的理解能力,我们很早就在Tesla FSD beta的路测中观察到了,随着证据越来越多也进一步得到证实。Tesla的自动驾驶策略是坚持单车能力,尽可能降低对外界条件的依赖。这个能力体现,符合FSD beta v10.11.2的release note中的第三条:-3 Improved right-of-way understanding if the map is inaccurate or thecar cannot follow the navigation. Inparticular,modeling intersection extents is now entirely based on networkpredictions, and no longer uses map-based heuristics.//小编:改善主车对于道路结构识别的即时性,在高精地图数据失效而无法利用时,以主车识别结果为准。在道路路口场景下,完全依赖主车的即时识别结果;
3 Improved the precision of VRU detections:
视频5的开始阶段,在道路左侧的行人先后被转弯车辆和铁轨支柱遮挡,但车辆中控屏幕的UI显示始终没有丢掉对于这个行人的识别和跟踪,虽然有时会出现对于目标前进方向预测的失误,也是短暂的。这个符合去年Tesla AI DAY上的官方展示:即通过Transformer构造的BEV空间信息流中,将每一帧feature通过Feature Queue队列机制在时间轴上构成连续时间流尺度(小编:也许是10-15s范围内),对外界事物进行描述;与此同时还需要利用车体姿态的惯性传感器(INS)输出,来在上述时间流尺度范围内,利用Video Queue队列继续构造地理上的连续空间尺度(小编:当然这里还有个目标物追踪的问题需要处理)。如此,在指定的时间+空间范畴内,感知信息将会得到类似上下文context的衔接处理,从而为后端的预测、规划和控制模块提供更好的数据输入。
参照下图6,感知系统在尽可能模仿人类的视觉+脑能力,不仅仅是看到,并辨识出物体的位置、尺寸、速度和语义信息,还需要在这个基础上,记住关键的、有时效性的外界道路参与者尤其弱势群体VRU的局部历史信息,这对于提升系统安全性善莫大焉。Elon Musk在很多场合都会举这个例子:当你驾驶车辆看到路旁一个小朋友消失在一辆停泊在路边的公共汽车尾部的时候,你就会特别小心驾驶车辆驶过这部公共汽车的头部。因为你会担心这个在视觉上“消失的”小朋友可能会在公共汽车车头突然出现而来不及刹车,提前降速是一个明智的选择,也是人类的智慧体现。
图六【Tesla FSD beta v101102-4.png】
图6黄色框内所体现的网络结构,就是构建在BEV俯视图基础上的连续时间+空间识别feature,在此基础之上进一步实现标准的各个识别子任务。还是举那个小朋友消失在停泊在路边的大型公共车辆背后的例子:如果Tesla的FSD或者全体车队可以不断反馈类似视觉场景(小编:各种孩子、人力车等VRU闯入道路空间并消失在某些障碍后部),那么后台的Dojo就可以在类似数据标注完备的基础上,用这种结构化的场景去训练FSD的规划模块——Deep Reinforcement Learning的模块会在训练中被系统通过reward奖励告知,当遇到明确的VRU目标在道路范围内消失在遮挡物范围后的场景下,主动降速进入保守状态反而可以获得更多的奖励。如此往复,基于DRL的规划模块就会具备类人思考的能力。
回到视频5,当车辆在路口等候红灯时,我们也有一个较为全面的视角观察车辆视觉系统对于外界行人等VRU目标的识别效果观察,感官上确实做到比之前的版本更好、更流畅和更准确。这个变化符合FSD beta v10.11.2的release note中的第六条:-4 Improved the precision of VRUdetections by 44.9%,dramatically reducingspurious false positive pedestrians and bicycles (especially around tar seams, skid marks, and raindrops)。 This was accomplished byincreasing the data size of the next-gen auto-labeler, training networkparameters that were previously frozen, and modifying the network lossfunctions。 We find that this decreases theincidence of VRU-related false slowdowns.//小编:针对VRU-弱势道路使用者的识别精度提升了44.9%!特别是在各种道路环境干扰条件下,可大幅度降低对于行人和自行车的假阳性错误识别结果。这个精准的百分比贡献来自于下一代auto-labeler自动标注系统所提供大量有效的训练数据,将之前版本的模型参数进一步改进;
4 More accurate predictions of vehicles:
以上视频7中,FSD beta主车展示了一次“不同寻常”的变线超车行为。按照路线规划,主车在直行通过当前路口之后,应该在下一个路口(小编:目测150米左右)执行右转动作。如果此时主车的自身位置和地图信息都是清晰和准确的,那么按照路线规划惯例,在距离右转路口150m的地方大概率应该保持右侧车道行驶(小编:此时道路环境为单向双车道),而避免主动变入左侧车道后无法变回右转车道。这种情况下,较为保守的跟车行为将会确保安全右转,应该是执行概率更大的路径规划结果。
当主车观察到本车道前方两辆车辆实体都出现刹车灯点亮状态,且前车(小编:两车中的前车)出现明显的偏移行为显示其靠路边临时泊车的意图时,主车开始选择右侧换道超车,并在完成超越之后,且右转路口未到之前返回左侧车道。总体来说,主车的这个行为在这个场景和这个时机下,是一个在效率和风险之间平衡较好的、较为合理的路径规划决策。我们在2021年度Tesla AI Day上曾经听到较为完整的Planning and control module的介绍(by ashok),其中也提及过类似临近路口如何做便道选择的介绍。相比较来说,我们认为在视频7中的换道超车选择,更多是NN of Planning的选择,而非传统的路径规划输出的结果(小编:因为传统模式比如S-L路线规划往往更为保守,不会选择激进的但有可能错过转弯路口的规划结果)。类似行为如果越来越多被观察到,我们就可以越来越确信庞大fleet所贡献的各种数据,在后台Dojo的处理下,对于FSD beta的决策规划系统训练,产生了越来越正面的影响。
图九【Tesla FSD beta v10-11.png】
请注意上图9中的Neural Net Planner部分。Tesla FSD beta所展现的这种果断的、类人的换道超车行为,归功于此部分的决策输出在很大程度上左右了最终的主车行为。当然,这个变化符合release note当中的第2条和第8条,如下:
-2 Use more accurate predictions of wherevehicles are turning, or merging to reduce unnecessary slowdowns for vehicles that will notcross our path.//小编:针对它车行为,提供更精准的掉头和并线预测,减少主车的非必要刹车行为;
-8 Reduced vehicle “parked” attribute error rateby 17%,achieved byincreasing the dataset size by 14%. Also improved brake lightaccuracy.//小编:将它车状态标记为“停车状态”的错误率改善了17%,同样改善了对于它车刹车灯识别的准确率。这是通过不断扩张的训练数据库(增加了14%的有效训练数据)来达到的;
5 Understanding intersection extents based on network predictions:
以上视频10,充分显示了FSD beta决策规划模块高度依赖视觉系统即时感知确立道路结构,而非先验的高精地图信息。当主车右转进入四车道道路结构的时候,由于视角和距离的问题,FSD视觉系统的即时感知并无法断定关键的路口道路结构(小编:这里的路口指的是下一个路口)。而近在咫尺,最多目测也就100-150m的十字路口,只会给主车正常行驶提供非常短的预判断时间。
在这个距离上,主车camera并无法立刻识别下一个路口的道路结构,如果不依赖HDmap的道路结构化信息,那么主车只能选择直行,并通过camera不断探查路口的道路结构。这上图11这个具体的场景下,主车是要穿越路口直行,但他所在的目前这根车道在路口布局中是公共汽车专用车道(路口为红色)。但显然在这个距离上,主车并未意识到这一点,依然选择直行。
在抵近路口的过程中,主车FSD beta开始观察到红色路面,训练的结果令它意识到这是公共汽车专用道,但与此同时,左侧的直行车道分割线进入实线状态。这意味着向左的变道行为已经不被交通规则所支持,所以车辆的规划模块输出开始摇摆指向右侧车道。但同样很快他发现地面的指示表示显示右侧车道是一根右转车道。FSD beta开始输出摇摆不定的路径规划结果……直到人类司机接管。
根据这个现象,我们可以推测,如果FSD beta仰仗HDmap先验信息,那么我们不应该看到这个现象:随着逐步接近路口,路径规划模块开始摇摆不定。依赖HD map的好处很多,包括让FSD beta在足够安全的距离上就可以执行左侧换道,正常通行。但依赖HDmap同样会降低自动驾驶系统的整体鲁棒性,在没有HDmap的区域(或者HDmpa未及时更新的区域)行驶,则意味着自动化水平的严重降级。
所以有人选择全力建设尽可能广泛和即时的HDmap覆盖,有人选择干脆不依赖HDmap尤其在路口区域,执行即时测绘……这就看各家的系统设计思路了。
以上观察也符合release note中的第三点:-3 Improved right-of-wayunderstanding if the map is inaccurate or the car cannot follow the navigation。 In particular, modelingintersection extents is now entirely based on network predictions and no longeruses map-based heuristics.//小编:改善主车对于道路结构识别的即时性,在高精地图数据失效而无法利用时,以主车识别结果为准。在道路路口场景下,完全依赖主车的即时识别结果;
此处另一个值得关注的问题是图11所显示的芝加哥闹市区,严重的城市峡谷可能会产生不稳定的GPS定位效果。这个必然会在路径导航(注意,不是路径规划层面)上产生干扰。我们观察到FSD beta也有这个问题,会在特定节点突然重启路径路由,大概率是因为GPS信号偏差严重所诱发。
对于FSDbeta v10.11.2一个公允的评价
FSD beta进入v10之后,大版本迭代的节奏慢了下来。V10阶段已经推送了11个小版本,但Elon Musk所多次提到的v11仍未到来。我们等到的是3月份Karpathy的停职休假。虽然不太可能是离职前奏,但在关键时刻,作为感知系统总监,去休一个三四个月的长假……还是挺令人意外的。引发小编最大的思考还是这个问题,对于FSD beta来说,过于严苛的单一传感器配置,是否在感知层面引发难以克服的技术瓶颈期?而Ashok又能在这个感知结果下,带领规划和控制团队走多远呢?
也许现阶段,能让人暂时保持信心的,就是FSD beta高度数字量化的release note了!Tesla落在实处的硅步,一直都还在。
审核编辑:刘清
评论
查看更多