01
硬件随机故障基本类型
为方便理解,在具体谈硬件概率化度量前,我们先来看看硬件随机失效的基本模式:
由上图可知,ISO 26262将硬件随机故障失效模式,按照发生故障的数目,是否可以被探测以及感知进行了分类,其主要特点总结如下:
单点故障
─ 某个器件单独导致功能失效的故障。
─ 单点故障可直接导致违背安全目标。
─ 单点故障意味着没有任何安全机制,否则不能归类为单点故障。
残余故障
─ 安全机制无法覆盖的那部分故障(没有100%覆盖率的安全机制,如果一个安全机制覆盖率为90%,那剩余的10%则属于残余故障)。
─ 残余故障可直接导致违背安全目标。
─ 残余故障至少存在一个安全机制。
潜在故障
─ 既不被安全机制所探测,又不被驾驶员感知的故障。
─ 系统保持正常工作至所有独立故障发生。
─ 潜在故障可直接导致违背安全目标。
可探测的故障
─ 通过安全机制可探测到的那部分故障。 ─ 通过安全机制探测到故障并进行显示。
可感知的故障
─ 可以被驾驶员感知的故障。 ─ 可以有或者无安全机制进行探测。
双点故障
─ 两个独立的故障同时发生才会违背安全目标,则这两独立的故障属于双点故障。
─ 某故障和其对应的安全机制失效属于常见的双点故障。
─ 双点故障又细分为可探测的双点故障、可感知的双点故障以及潜伏的双点故障。
安全故障
─ 不会导致违背安全目标的故障,例如某指示灯显示故障,但不影响其正常功能。
─ 三点及以上的故障通常也被认为是安全故障(一般发生概率较低且所对应的安全机制过于复杂,所以归类为安全故障)。
更多详细介绍可以直接参考ISO 26262-10:2018第8部分。
02
硬件随机失效率
为了对硬件随机失效进行量化,引入了硬件随机失效率λ,其定义为:
失效率是指元器件在单位时间内发生失效的概率,记为λ,一般以小时(h)作为时间计量单位,所以其单位为: 次/h。
考虑到电子元器件失效率极低,所以一般采用FIT (Failures In Time) 来计量,1 FIT=1次失效/10^9 h。
例如: 某电阻失效率λ=2 FIT,即该电阻在10^9 h内存在两次失效。
不知道朋友们有没有想过,既然电子元器件的失效和自身老化相关,那它的失效率为什么是常数,而不是随时间变化的?
为了回答这个问题,我们先来看看电子元器件的生命周期特性。电子元器件的生命周期非常符合浴盆曲线(Bathtub Curve),如下图所示:
有图可知,电子元器件整个生命周期大致可以分为三个阶段:
第一阶段: 早期故障期,即磨合期,该阶段故障多属于系统性故障,和设计,制造相关,故障率相对较高。
第二阶段: 偶然故障期,即有用寿命期,该阶段是电子元器件正常使用周期,持续时间长,失效率低且较稳定,设计无法消除,属于随机硬件故障,ISO26262 中硬件量化指标就是针对该阶段失效率的评估。
第三阶段: 耗损故障期,上随着电子元器件使用寿命到期,故障率随之上升。
因此,在ISO 26262中查到的是恒定值,而不是一个时间函数。
那么怎么获取电子元器件的失效率呢?一般来讲可以通过以下三种方式获得:
1
历史数据: 根据已有或相似产品,预估新产品的失效率,但全新的产品没有历史数据可参考。
2
测试: 属于最真实和最准确的数据来源。但测试周期长,成本高。
3
行业公认的标准: 根据SN29500, IEC 62380等行业公认的标准和指南中提供的可靠性预估算法计算。
03
硬件的架构度量
硬件架构的度量, 用于评估相关项架构应对单独类型的随机硬件失效的有效性。由于硬件随机故障中,单点故障、残余故障和潜伏故障会直接导致安全目标的违背或实现有显著影响,所以硬件架构概率度量包含以下两个方面:
单点故障度量(single-point fault metric):
1
单点故障度量反映硬件安全机制或设计对单点和残余故障的覆盖是否足够。
2
高单点故障度量值表示相关项硬件单点和残余故障所占比例低,系统可靠性高。
计算公式:
即: SPFM=1 - (单点故障总和+残余故障总和) / (所有和安全相关失效率总和)
其中:
─ λSPF: 单点故障失效率,λRF,est: 估算的残余故障的失效率,λDC,RF: 残余故障的诊断覆盖率。
潜伏故障度量(latent-fault metric-LFM):
1
潜伏故障度量反映硬件安全机制和设计对潜伏故障的覆盖是否足够。
2
高潜伏故障度量值表示硬件潜伏故障所占比例低,系统可靠性高。
计算公式:
即: LFM=1 - (所有潜伏故障总和) / (所有和安全相关失效率总和 - 单点故障总和 - 残余故障总和)
其中:
─ λMPF,L,est: 潜伏故障的估算的失效率,λDC,MPF,L: 潜伏故障的诊断覆盖率。
─ 由于λ=λSPF+λRF +λMPF +λS,所以残余故障多为双点或多点故障MPF。
此外,硬件架构度量取决于相关项的整体硬件,都应符合规定的硬件架构度量的目标值:
针对ASIL (B)、C或D的安全目标,对于每一个安全目标,“单点故障度量”的定量目标值应基于下列参考目标值来源之一:
针对ASIL (B)、(C)或D的安全目标,对于每一个安全目标,“潜伏故障度量”的定量目标值应基于下列参考目标值来源之一:
需要注意的是:
1
硬件架构的度量是针对于相关项的整体硬件,非一个单独的硬件部件,需要考虑所有相关硬件的失效率。
2
度量指标,即SPFM和LFM,均属于相对值,即百分值%。
04
硬件随机失效的评估
随机硬件失效的评估旨在从硬件整体设计的角度,即综合考虑不同类型硬件随机失效,确保硬件系统安全机制和设计的有效性。ISO 26262对这一评估推荐了两个方法:
方法一: 使用概率的绝对值的度量, 即随机硬件失效概率度量(probabilistic metric for random hardware failures, PMHF),通过使用定量分析方法计算PMHF,其结果与目标值相比较的方法,评估是否违背所考虑的安全目标。
方法二: 独立评估每个单点和残余故障及每个双点故障是否导致违背所考虑的安全目标。
一般在实际应用中都采用第一种方法,即PMHF。关于PMHF计算公式网上有很多误解,在ISO 26262-10:2018,第8.3章节增加了有关PMHF计算的进一步解释。一般来讲,PMHF通用化计算公式如下: PMHF=∑λSPF + ∑λRF + ∑λDPF_det × λDPF_latent × TLifetime 其中:
─ λSPF: 单点故障的失效率,λRF: 残余故障的失效率,λDPF_det: 双点故障的可探测失效率,λDPF_latent: 双点故障的潜伏失效率。
─ TLifetime: 车辆生命周期。
需要注意的是:
1
PMHF表示在汽车运行周期中每小时平均失效概率,包括了对单点失效,残余失效,可探测的以及残余的双点失效的综合量化衡量。
2
PMHF单位为FIT,属于失效率绝对值度量,而硬件架构度量指标SPFM,LFM单位为%,属于相对值度量。
3
除基本硬件随机基本故障的失效率以外,PMHF还需要考虑车辆生命周期(TLifetime)。
4
对于双点故障(A,B),最常见的组合是功能故障A和对应的安全机制B,当故障A发生且不被安全机制B探测,并不会立刻违背安全目标;但如果安全机制B也发生故障,将违背安全目标。
很对朋友搞不清楚为什么双点故障失效率计算是λDPF_det, λDPF_latent, TLifetime这三个因素的乘积?
其实该公式已经属于简化后的计算公式,在ISO 26262-10:2018对典型的双点故障不同的失效模式进行了分析,一共包含了4个Patterns,功能发生故障A且对应的安全机制B潜伏这种Pattern下,双点故障会在整个车辆生命周期永久潜伏,影响最大,因此故障A和故障B组合违背安全目标的每小时平均失效概率为λDPF_det, λDPF_latent, TLifetime这三个因素的乘积,双点故障失效计算因此也简化为该Pattern下的失效率,具体见ISO 26262-10:2018。
如果这部分数值较小,则可忽略,这也是为什么在很多计算中没有考虑这部分的原因。
此外,虽然失效率λ和PMHF单位均为FIT,属于绝对值度量,但二者意义完全不同,主要体现在以下几点:
针对级别不同
─ 失效率: 单个硬件组件。
─ PMHF: 整个相关项硬件。
代表意义不同
─ 失效率: 表示单位时间内单个硬件组件或零部件发生故障的次数或概率。
─ PMHF: 用于衡量硬件安全设计是否足够有效。具体来讲就是,相对于指定的ASIL等级要求,由于相关项的随机硬件故障而导致的安全目标被破坏的风险是否足够低。PMHF并不显示随机硬件故障发生的频率。即便一个硬件组件的故障率很高,但由于良好的硬件架构,包括安全机制,整体的PMHF也可能较低。
此外,随机硬件失效度量取决于相关项整体硬件,需要分析计算不同安全目标对应的PMHF值,并且符合规定的随机硬件失效率度量目标值: 针对ASIL (B)、C或D的安全目标,必须为随机硬件失效导致违背每个安全目标的最大可能性定义定量目标值,其使用来源包括以下a)、b)或c):
a) 来自表6;或
b) 来自值得信赖的相似设计原则的现场数据;或
c) 来自应用于值得信赖的相似设计原则中的定量分析技术。
此处需要注意的是:
表6提供的PMHF定量目标值只是一种可能性,并不是唯一的依据。
这些来源于a)、b)或c)的定量目标值没有任何绝对的意义,仅有助于将一个新的设计与已有设计相比较。其目的是生成硬件可靠性设计指导,并获得设计符合安全目标的可用证据。
当没有其他来源可以确定随机硬件故障失效目标值,通常会选择表6提供的目标数据。
审核编辑:刘清
评论
查看更多