智能网联加速智能座舱技术发展
智能网联是汽车行业发展最重要的趋势之一,包括自动驾驶和车联网两个主流方向。各国政府包括中国政府在内,都在积极地制定智能网联技术路线并不断完善本国的智能网联标准体系。不可否认,智能网联技术及其标准体系都将对汽车座舱发展产生深远的影响。
首先,我们来看以舱外感知为基础的驾驶辅助,从奥迪 Piloted Driving 系统到特斯拉 AutoPilot 系统,都为汽车座舱提供了新的思路和方向。例如,增加了大量的道路路面显示内容和对驾驶员的监测提醒。同时,在智能网联技术驱动下,汽车座舱领域也产生了许多新技术和应用,例如,基于视觉骨架提取技术的手势识别交互,基于雷达探测的手势识别,智能语音识别与交互,增强现实(AR)HUD 等等。
其次,全球 OEM 也都在积极为智能座舱集聚力量,不断在概念车上增加智能化新功能。例如,奥迪的情绪感知 LED 灯,丰田的驾驶员监控系统,奔驰的手势、眼球追踪和触屏互动功能等等。同时,各汽车零部件供应商和半导体厂商也也在积极准备,比如,博世成立了汽车未来驾舱技术中心,来推动智能座舱发展。
智能座舱演进的四大阶段
在此,我们预测一下汽车座舱的发展趋势。我们认为汽车座舱会经历传统座舱、信息座舱、智能座舱和无人驾驶座舱4个发展阶段。目前,汽车处于信息座舱阶段,在辅助驾驶和智能化功能加载后,会逐渐转入到智能座舱阶段,最终实现无人驾驶座舱。到那个时候,整个汽车座舱将会发生非常大的变化,人车环境将深度融合,座舱将会具备智能自我提升能力。
信息座舱,也是当前消费者接触最多的座舱形式。相对于传统座舱,其舱内信息内容开始丰富,智能化能力初步显现。但是,它呈现的内容基本集中在车身状态信息、影音娱乐系统以及初级车联网信息,且展现的智能化能力也比较弱,用户体验不是很好。与信息座舱相比,智能座舱的信息感知融合能力大大增强,信息来源将更加丰富,除了车身本体信息和 T-Box 的网络信息,还会增加来自于驾驶员和乘客感知信息,以及来自于 V2X 的车外环境信息等等。这些信息感知会更加隐性,提供的功能也会更加智能。
智能座舱开发的技术挑战
智能座舱之所以会遇到技术挑战,是因为相对于传统座舱和信息座舱,它需要大量新技术,尤其是 AI 技术支持。比如,对于年龄性别检测,在现实生活中,年龄对一个人来讲,有时候也很难判断,那么,对于 AI ,相对精准的年龄识别可能会更难。对于疲劳检测,疲劳因种族、年龄和个人的身体状况不同都会表现出非常大的差异,目前全世界对疲劳的定义和疲劳检测都还不统一。对于情绪识别,稳定精准的情绪识别也是一个很的挑战,不同人的情绪存在着差异,不同文化、不同种族表现出来的情绪也有很大的区别。
不仅如此,智能座舱,除了要服务驾驶员,还要服务副驾和后排乘客,甚至物品(遗留),所以其服务的对象的广度也是传统座舱和信息座舱无法比拟的。
上述需求具体来说有哪些技术挑战呢?
从图像识别来看,就需要身份识别、状态识别、行为识别、乘员识别这些功能;从语音识别来看,它需要语音控制、情感交互和声纹识别。如何去实现这些功能?对于状态识别,我们需要监测驾驶员头部姿态,眼部状态,嘴部状态,情绪状态。而识别这些状态又需要进一步的细节化的特征监测,要对频率特征、角度特征进行进一步识别。例如,我们可以通过感知眼睛的眨眼频率来识别眼部状态,进而感知一些隐性信息。
所以,我们可以看到,图像和语音识别需要AI提供大量细节化的精准感知信息,而这些信息感知又会受到算力、客观环境、人的姿态、配饰遮挡、假体攻击和传感器协同等多个因素限制,需要多种工程技术相互协同,这为智能座舱带来了非常大的挑战。汽车是一个大规模生产制造的产品,座舱智能化容易受到有限算力(广义上还包括内存/Flash)的约束。如何在有限的算力、有限的内存,有限的 Flash 上实现准确可靠的AI功能,成本和性能的考验非常大。
对于客观环境,夜晚、顺光、逆光等复杂环境会造成图像过曝、过暗,清晰度、对比度不足等光学和图像问题;智能座舱需要克服上述困难,实现驾驶员精准感知,也是挑战重重。
同时,多传感器融合对智能座舱,也是一个较大的挑战。当前,很多智能座舱会配备智能语音系统和图像识别系统,但是更多的是以单模态的形式工作,与驾乘人员单独交互,座舱智能化能力有待提高。例如,以智能语音系统为例,语音系统会受到各种噪声的影响,如车内的娱乐系统,舱外的风噪和胎噪等,都会对其产生干扰,语音系统被干扰激活后,就可能会产生错误推送。如果遇到驾驶员心情不好,给他推送了一首非常不适合的歌曲,就会导致用户体验进一步的恶化;对于图像识别系统,反之亦然。
对于上述挑战,目前比较有效的关键技术和解决方案之一还是嵌入式的 AI 技术和构建在嵌入式 AI 技术之上的解决方案,尤其深度学习技术,它是智能座舱内智能化的应用具有鲁棒性和相当强泛化能力的重要保障。除了 AI 技术以外,座舱还需要多传感器的融合技术,如 Camera 和 TOF 传感器融合去对抗假体攻击,语音系统与图像系统的融合弥补单模交互和单模 AI 感知的缺陷。
那我们先看一下嵌入式 AI 的主流开发过程。
以硬件芯片(计算资源)是否可编程可重构为标准,大致分为两类,一类是 GPU、CPU 和通用的 SoC,它的硬件可编程能力比较弱;而另一类是 FPGA ,则具备比较强的硬件可编程能力,这是它们的主要差别。但是,在整个 AI 的开发过程当中,它们都需要完成浮点型的模型训练、模型压缩、定点化,进而生成AI模型和具体的 AI 应用。对于 GPU、CPU 和 SoC,用户可独立开发或者是借助半导体厂商提供的 AI 引擎,来加速或者简化开发过程。例如,高通、安霸,他们都提供了一些便于用户使用的 AI 开发工具,在许多 SoC 里面,也有相应的 AI 加速引擎。
FPGA 相对于 GPU 和 CPU 来讲,效率会有一定的优势,性价比也更高。因为FPGA 内部的 PL 部分能提供非常灵活的硬件可编程可重构能力,对于AI网络会有更好的适配性。例如,FPGA 和 SoC(SoC就是指含有AI加速引擎的)相比,FPGA 在超低比特的量化,例如1比特或2比特方面会有非常强的优势;而对于SoC,可能当前主流的量化主要集中在8 比特,它最底层计算单元可能是浮点型或者是长比特定点型,很难去支撑1比特或者是2比特的量化,效率不高。
从剪枝层面来讲,不管是对称剪枝还是非对称剪枝,规则剪枝还是非规则剪枝,两类器件可能会表现出类似的性能。而对新型网络的支持,FPGA 会具有更强的优势。大家都知道,芯片从流片到上市应用需要一个非常长期的开发过程,硬件可编程可重构能力弱的芯片很难匹配新型AI网络的快速发展,存在一定的代差。
FPGA 如何解决智能座舱技术挑战?
自行科技在 FPGA 开发积累了丰富的经验,我们会把深度学习的底层网络模块化,通过 CNN 网络结构解释器,快速支持新型AI网络模型。同时,在 FPGA 内部做了大量的并行优化,最终实现小芯片大网络的计算效能。这就为智能座舱众多 AI 技术应用需要的海量运算,提供了低成本和低功耗的可能。
智能座舱的快速发展,要求我们必须具备完整的 AI(深度学习)开发工具链,才能快速满足各种智能化的需求。从算法层、软件层到硬件层,自行科技开发了非常多的工具,去实现或加速整个 AI 的开发过程,目前主要是操作系统等,自行科技是借助第三方,其他的我们都是自己去开发,因此形成了一套高效的开发流程。
对于智能座舱解决方案,舱内多传感器融合是智能座舱非常重要的一个支点,前面我也提到,最需要融合的就是听觉和视觉。对于智能座舱,听觉传感器和视觉传感器成本较低,相对可靠,具备大规模量产的可能性。而触觉和生物智能感知传感器,在汽车上大量应用装配可能还需要更长时间。对于语音和图像,融合需要贯穿整个语音和图像的处理流程中来。唤醒、识别、语义、TTS 和业务,这是智能语音的主要的处理过程,每个过程都可能和图像感知的某一个功能形成交互,提升感知置信度和准确度,最终从整体上提高智能座舱服务能力和质量。
例如,在做语义解析时,我们需要考虑当前驾驶员或乘员的状态,甚至习惯;向其推送业务或进行智能交互时,需要考虑他的性格,表情,甚至身份,这种深度的图像和语音融合,对于未来智能座舱发展将会起到至关重要的作用。
这是我们开发的一个听觉和视觉融合的模型,它遵循语音和图像自然处理的过程。例如,语音经常会因车外的胎躁和风噪产生误唤醒和误触发,给客户带来不好的体验。当语音唤醒被触发后,我们可以考虑通过图像人脸检测技术来检测是否有人脸?分析其触发是驾驶员触发,还是副驾或后排乘客触发?甚至还可结合驾乘人员的分布情况。在识别到驾驶员或乘员语音时,我们会要求同步图像检测结果,包括嘴部检测、眼部检测、头部检测,甚至对视线检测等。在进行智能人机交互时,我们会结合当前驾乘人员的情绪状态、行为状态、性别等来判断其心理状态和情景,以便做出更合适的智能交互。这种多模态交互,势必会比单模态交互,给驾乘人员带来更好的体验。
但是,听觉视觉融合难度和复杂度也不小,除了策略问题,还表现在同步问题。如果你在错误的时间,错误的语境下面去提取的另一种传感器的结果,反而可能会造成更不好的结果。所以,多传感器的融合,关键在于数据采集同步和后续的AI处理同步。
同步模型最关键的问题就是时序问题。我们需要去准确控制每个传感器的识别过程、模块处理时长,让两种传感器相应的模块得最佳匹配。这一方面需要算力的支持,也需要控制逻辑的支持,从这个角度来看,FPGA 和非 FPGA 器件同步方面存在的一定的差异。因为有硬件可编程部分,FPGA 的基础数据采集同步精度会更高,AI 处理的同步性也会更高。AI 处理过程中的每一个任务、子任务、子模块,例如人脸检测、特征点抽取、头部状态检测,都能被精确地控制和调度。
非 FPGA 器件,因为存在着操作系统,哪怕是实时操作系统,也会对 AI 的处理过程的控制精度造成影响,导致 AI 处理流程对操作系统依赖度比较大。当然这也不是说这类器件不能解决 AI 的处理同步性问题,只是说在大数据量、大 AI 算法或者大AI 任务面前,FPGA 的服务性会可能更好一些。因为随着传感器的增加,随着每一种传感器采集的数据量和处理需要算力的增加,那么它们会受到不同调度任务、不同区域、不同进程之间的冲突和竞争,导致时间可控性难度增大,而 FPGA的时序控制性会更好。
智能座舱及ADAS 方案与案例
目前,自行科技 DMS 产品在宇通客车已经前装量产,而且在宇通客车上还提供了人脸开车门(Face-ID)的智能化功能;在卡车领域,公司今年会率先在重卡上量产DMS (Driver Monitor System,),现在也在积极与北美 ACS 公司联合开发DMS和ADAS。在乘用车方面,我们是 Bosch 中国的 DMS 软件合作商;在日本市场,公司是丰田通商的战略合作伙伴,同时,公司与科大讯飞合作完成了多模态智能座舱的开发,在芯片和 IP 层面,我们也跟紫光和 Xilinx 深度合作,向他们提供 AI 的 IP 。在去年年底,广汽资本战略投资了自行科技,这也将促进自行在未来的快速发展。
同时,自行科技是中国国家 DMS 标准制定成员单位,这个国标将对智能座舱(乘用车与商用车)产生重要影响,最快2021年将会发布。对于商用车智能座舱,主要功能包括标准的 DMS 和 Face-ID;而在乘用车里面,除了 DMS 和 Face-ID以外,还需要 OMS 以及相应的手势识别等功能。这是我们针对乘用车智能座舱开发的功能:左上角是一个比较全面的 DMS 功能,包含了驾驶员疲劳检测,身份识别,视线追踪、注意力检测和情绪识别,左下角是一个基于乘员状态检测功能,包括后排儿童遗留提醒以及驾乘人员分布情况分析。右侧4个应用主要展示乘用车的手势识别和姿态识别功能,例如,点头摇头,结合座舱娱乐系统与语音系统对“嘘”动作的识别,以及大面积遮挡下(墨镜口罩)的表现。这个是智能座舱关于人脸识别和假体攻击验证 demo。对于活体检测,如果是真正的活体,检测结果是一个绿框;如果用照片去欺骗车内视觉系统,那就会被检测出一个红框。
自行科技除了提供智能座舱,还会提供相应的 ADAS 功能。我们支持 L0-L2+的道路感知功能,例如,基于 L0-L1的车辆/行人/车道线的预警功能以及 LKA/AEB等主动干预功能。这是综合场景下的行人检测、车辆检测以及道路目标的检测。这是支持 L2+ADAS 应用(例如 TJA、HWA 等)的感知融合技术,在夜晚的实际场景下我们实现了道路目标(车辆和行人)的识别,实现了基于道路目标的语义分割,同时基于单目视觉技术提取了图像的深度信息,并且做了视觉里程计。
这些功能在不同的场景下都有独特的应用,在不同的工况下都会产生独特的价值。例如,在夜晚,光线光照度会受到影响,精准的视觉目标检测有一定的困难,因此,需要基于一个更大计算量的AI网络去做语义分割。当然,即使基于目标检测和语义分割,也很难稳定地对道路上所有目标进行全工况的精准感知。此时,单目视觉深度信息提取,就是一个很好的补充措施。无论是否曾经被训练过,是否被语义分割网络分割过,它都能通过目标的深度视觉信息,对 L2+功能进行可靠地避障,或者是可靠地主动干预提供感知支持。当然这个视觉信息还是要跟其他传感器,例如毫米波雷达、激光雷达做进一步的融合。视觉里程计也能对车辆的姿态进行预测,不管是前车还是本车,亦或是对道路趋势的判断。它大大增强了对道路目标的感知能力。
除此之外,我们也把前向 ADAS 技术用在了侧向,例如,视觉 BSD 功能。目前在这类功能在商用车领域发展很快。
结 语
未来智能座舱的应用将是多模态感知和多模态的交互,而且首先需要实现的是视觉、听觉的感知融合和交互融合,最终实现拟人化的感知和拟人化的交互。未来智能座舱将会集成 ADAS、IoT 和 V2X 等新兴技术,是整车实现信息化、安全化、智能化和舒适化的重要部件。智能座舱的演进和发展,必将以 AI 技术为驱动力,汽车座舱必将成为一个更加智能的人类活动空间。
-
自动驾驶
+关注
关注
784文章
13826浏览量
166493 -
智能网联
+关注
关注
4文章
606浏览量
23247 -
智能座舱
+关注
关注
4文章
953浏览量
16357
原文标题:CPU, GPU,FPGA, SoC, 谁更适合智能座舱?
文章出处:【微信号:FPGA-EETrend,微信公众号:FPGA开发圈】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论