21世纪太空将成为国际军事竞争的制高点。随着技术的发展和科技的进步,航天电子设备对诸如现场可编程门阵列(Field Programmable Gate Array, FPGA)、数字信号处理器(Digital Signal Processor, DSP)等超大规模集成电路的依赖性越来越强。另一方面,宇宙中存在各种辐射射线,使得高性能芯片受太空射线影响而产生单粒子效应的概率大大提高,并且器件的集成度越高,单粒子效应的影响就越显著,这严重影响和制约着航天电子仪器设备的正常工作。因此开发具有高速度、强抗辐射能力的集成电路技术对于发展我国航天技术及在辐射环境下工作的武器系统具有重要的意义。
一、 辐射环境
空间辐射主要来自宇宙射线,太阳耀斑和太阳风辐射。宇宙射线是指来自宇宙空间的高能量的粒子辐射,它们主要由高能质子和电子、X射线和γ射线、中子组成。这些高能量粒子能在局部沉积足够量的电荷,不仅会造成逻辑翻转还会对加工的芯片产生辐射损伤。国内外对航天故障的统计显示,40%左右的故障源自太空辐射:1993年8月21日,美国有五颗卫星同时失效,原因是使用的同一批定时器芯片,均因宇宙射线辐照而失效;我国1994年发射的“风云二号”气象卫星失去控制,也是由于一块超大规模集成电路(Very Large Scale Integration, VLSI)芯片受到空间辐射影响而失效。2003年10月太阳风暴引起强烈的北极光,导致日本高级地球观测卫星Midori-2等多颗卫星失灵。因此抗辐射技术是保障航天电子设备高可靠长寿运行的关键技术,是航天电子领域的研究重点和热点。
二、 辐射效应概述
空间电子设备由于其所处的轨道不同,受到的辐射影响也不相同。总的来讲,空间中的辐射效应主要有:总剂量效应(Total Ionizing Dose, TID)、位移损伤(Displacement Damage)、单粒子翻转(Single Event Upset, SEU)、单粒子功能中断(Single Event Functional Interrupt, SEFI)、单粒子烧毁(Single Event Burnout, SEB)、单粒子瞬态脉冲(Single Event Transient, SET)等。其中对FPGA影响较大的辐射效应主要是总剂量效应和单粒子效应。
随着工艺水平的提高,FPGA内核电压逐步降低,器件的辐射总剂量承受能力会越来越高,因此对采用先进工艺的高性能FPGA来讲,总剂量效应影响会相对减小。但是随着器件核电压的降低、门数的剧增,单粒子翻转、单粒子功能中断和单粒子瞬态脉冲等一系列单粒子效应会越来越明显。单粒子效应可以造成某个器件或者器件的某个区域较长时间甚至永久性的失效。因此FPGA的抗单粒子效应设计将极大程度上影响以FPGA为重要组成部分的航天电子设备的可靠性。
三、 单粒子效应的产生机理
单个粒子可能击中硅片中的组合逻辑,也可能击中时序逻辑。当一个带电粒子击中存储单元的某一敏感节点时,如截止态晶体管的漏极时,其产生的瞬时电流脉冲能够开启对面晶体管的栅极。这种作用将产生存储值的倒置,也就是存储单元中的位翻转。存储单元有两个稳定状态,一个表示存储“0”,而另一个表示存储“1”。每种状态都有两个晶体管开启和两个晶体管关闭(SEU以漏极为目标)。存储单元中的位翻转发生在高能粒子引起电路中晶体管状态翻转的时刻,这种效应就是SEU效应,也是数字电路中需要重点关注的问题之一。
当一个带电粒子冲击组合逻辑块时,同样会产生瞬时电流脉冲,这种现象称为单粒子瞬态脉冲效应(SET)。如果逻辑运行速度足够快,以至于传播了引入的瞬时电流脉冲,那么该SET将最终出现在第二个锁存器的输入端,并被认为是有效的信号。该SET是否会被当作真正数据而得到保存,取决于当时它到达的时间和时钟下降沿或上升沿之间的关系。SET有转变为SEU的可能。
基于静态随机访问存储器(Static Random Access Memorizer, SRAM)工艺的FPGA受空间高能粒子影响较大,其内部配置存储器的逻辑状态常常发生SEU。如果翻转发生在RAM单元,可能导致数据错误或丢失;如果翻转发生在逻辑功能区,可能导致航天器的功能中断。因此,研究提高其抗单粒子效应能力的新方法是相当具有吸引力的工作。
四、 宇航应用中的芯片选择
在实际宇航工程应用中,可选择的芯片包括专用集成电路(Application Specific Integrated Circuit, ASIC)、以SRAM为基础的FPGA和以反熔丝为基础的FPGA。由于没有一项技术是万能的,设计人员需要针对特定的应用权衡取舍各种特性,从而得到最佳方案。
对于多数航天系统而言,ASIC是具有最高密度、最小重量和最低功耗的解决方案,但它却缺乏FPGA的灵活性。除此之外,当把设计工具成本、校验时间和非经常性工程费用(Non Recurring Engineering Cost, NRE)一并考虑之后,ASIC也是成本最高的解决方案。
以SRAM为基础的FPGA可以现场编程,设计人员可在运行的航天器中重新配置逻辑电路。因此,SRAM型的FPGA成为多数设计人员在应用中的首选。不过这种灵活性所要付出的代价是:所有SRAM都易受高强度宇宙辐射的影响,易发生SEU。
对于大多数航天应用而言,以反熔丝为基础的FPGA比ASIC和SRAM产品具有更多优势。它拥有最低的FPGA能耗且具有高可靠性,采用耐辐射的反熔丝FPGA,设计人员可以免除ASIC设计中那些NRE成本和工程延误风险,并且能享受只有FPGA才能提供的设计灵活性。此外,耐辐射反熔丝FPGA所需元件较少,因此能简化板级设计、减轻重量和节省板卡的空间。
五、 抗单粒子效应的加固设计
1、 看门电路
FPGA设计中防止单粒子翻转的硬件措施是采取看门电路,一旦发生单粒子翻转导致的程序走飞,可通过狗咬信号对FPGA进行复位,从而达到自动恢复。此外,在FPGA内部状态机设置状态陷阱,使由于单粒子翻转而产生的错误状态可以自动恢复初始状态,从而避免死锁。目前此项技术已在中俄火星探测中崭露头角。
2、 三模冗余
图1为典型的基于硬件的三模冗余(Triple Module Redundancy ,TMR)逻辑原理示意图,三个相同的模块M0、M1和M2分别接收三个相同的输入Input,产生的三个结果送至三选二表决逻辑。若有一个模块发生SEU故障,另外两个正常模块的输出可将故障模块的输出掩蔽,从而不会在表决器输出产生差错。此设计思想基于的假设前提为:任意两个存储单元的同一位不会在统一时间发生SEU 。
TMR的优点在于速度快,缺点是所需附加硬件资源多,一个受保护模块的冗余至少需要备份两次,从而造成功耗、体积及质量增大。
3、 刷写
SRAM型FPGA上电时通过配置电路将配置存储单元的内容写入其中。当FPGA发生SEU效应时,存储单元的“位翻转”是一个常见的现象。由于翻转的位置可能恰好不在FPGA编程布线区,故配置数据中的一个位(bit)的翻转不一定直接导致FPGA发生功能故障。然而,如果不及时采取恢复措施,翻转位数量会不断积累,达到一定程度终究会导致功能错误。刷写(Scrub)的直接功能就是阻止翻转位的累积。由于FPGA是可重复编程的逻辑器件,可以通过周期性刷写存储单元中的内容,来减小存储单元受到SEU而发生位翻转的概率。从许多空间飞行器中搜集到的数据显示:频繁地刷写可以直接提高存储器的抗SEU能力;而且存储单元刷写的时间间隔越大,可靠性越低。
刷写无需冗余的附加硬件逻辑资源,仅需适当增加自适应周期性刷新操作。因此,存储区域的重新刷写是目前国外FPGA和DSP空间应用时解决单粒子翻转问题的最有效的方法,尤其是对未作防护的标准商用货架器件(Commercial Off The Shelf, COTS)器件。但是,该方法只能解决时序逻辑的瞬时故障,不能解决由SEU导致的错误传播效应。因此,刷写技术仅适合片外FPGA配置存储单元的抗SEU设计。
4、 结构设计
金字塔形体系结构设计基本概念
从结构设计上研究提高系统抗单粒子效应能力的方法是目前国内外正在研究的重点。设计中常采用金字塔形体系结构,金字塔形体系结构的含义是指:高等级、高可靠性的器件实施对中等级、中可靠性的器件的状态监控,中等级、中等可靠性的器件实施对低等级、低可靠性器件的监控,依此类推,构成一个金字塔形的层层监控的可靠性体系结构。
Actel宇航级FPGA是国内外星载设备上普遍使用的高可靠单元(High Reliable Unit, HRU),它位于信号处理平台的金字塔塔尖,负责系统故障的诊断、控制、调配和重构,是系统的大脑。由于Actel的宇航级FPGA的规模较小,不适合进行复杂的信号处理,因此它必须结合具有自主重构能力、高性能的FPGA或DSP才能完成复杂的信号处理,如测控、通信、数据压缩等。处于第二层结构的是SRAM型FPGA,它可以是军品级、工业级,甚至商业级器件,它完成多通道高速并行信号处理、DSP阵列的数据管理和待处理数据流向的控制。第三层是多个地位平等的高性能DSP,它们构成了一个具有高速数据处理能力的信号处理网络。
配置存储器的回读和重配置
Actel高可靠性的反熔丝FPGA负责从非易失大容量存储器中读取Xilinx FPGA的配置数据并对其进行配置,然后在系统运行期间,对最容易受辐射效应影响的配置存储器按列进行读操作,回读出数百万配置锁存器中的FPGA配置信息后,将其与原始配置文件进行逐位比对。如果有不同,则说明可能有单粒子翻转,且能同时准确定位到时哪一帧数据的哪一位发生了翻转,从而对出现错误的列进行局部重配置。
FPGA状态的分析与重配置
在金字塔形体系结构设计基本概念的基础上,Actel高可靠性的反熔丝FPGA担任系统的监控模块,通过Xilinx FPGA内部的功能模块提供的状态信息,对当前FPGA功能的正常性做出分析与判断。这些状态信号是配合内部程序产生的一种具有一定宽度的脉冲串,如果FPGA检测到存储区发生SEU或者运算单元发生故障,将停止产生状态信号;如果某些故障引起FPGA程序“跑飞”或“死机”,此状态信号也将自行终止。根据评估结果,如果发生辐射失效的概率足够大时,Actel FPGA将对Xilinx FPGA进行复位、重配置或者局部重配置,以恢复其正常功能。
5、分区设计
由单粒子翻转引发的单粒子效应故障具有伴随性,其传递范围一般局限在几何相邻或者有逻辑关联的功能模块之间,因此,如果把逻辑关系联系紧密的功能模块按照区域放在一起,那么当单个粒子入射引起配置存储器单粒子翻转时,故障空间和逻辑扩散范围就将局限于该区域。最重要的是,在某个区域的功能模块出现故障的时候,采用这种分区设计措施可以在不影响其他区域正常工作的情况下,对该区域的配置存储器进行快速动态重配置。
21世纪的国防已经开始向遥远的太空延伸,空间必将成为继陆、海、空之外的第四维战场,空间应用、空间攻防能力必将成为未来国防空间威慑力的重要筹码。易受辐射干扰的航空电子仪器能否高速可靠地运行,影响着未来空间国防的决策效率。而以FPGA为代表的超大规模集成电路依靠其强大的信号处理能力和优越的接口性能,成为航空电子仪器的重要组成部分,它们在航空航天工程中的广泛应用势在必行,其抗辐射加固也迫在眉睫。FPGA在航空电子应用中的加固设计可以直接应用于航空电子仪器设备,从而增强我国宇航级高性能数字器件的应用能力,提高我国宇航领域的整体研究水平。
编辑:黄飞
评论
查看更多