0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

导致芯片故障的五大元凶

5RJg_mcuworld 来源:杨湘祁 作者:电子发烧友 2019-03-11 08:59 次阅读

从草图到产品,“半导体器件在制造前后往往面临诸多危害,这将导致它们过早失效”。“芯片的工作环境恶劣,半导体行业已经学会了如何应对这些挑战。但随着制造尺寸越来越小或采用了新的封装技术,新的问题随之出现。”设计、制造、静电处理、关联问题、操作……诸多细节都是导致芯片故障的元凶,本文就将具体介绍导致芯片之死的五大原因。

以下为译文:

半导体器件包含数亿个晶体管,它们在极端温度和恶劣环境下工作,因此,许多器件未能如预期那样工作或寿命有限,这并不奇怪。有些器件永远无法走出实验室,还有许多器件则死于车间。人们希望发布到产品中的大多数器件在过时之前都能存活下来,但很多事情都可能发生,让它们无法走到那一步。即使是运行正常的器件也会受损,导致它们不能产生正确的结果。

器件失败及其原因可以列出一大长串。但它们通常分为几个类别,具体如下。

死于设计

Mentor/Wilson 的功能验证研究结果指出,2018 年 ASIC 芯片的一次投片成功率只有 26%,这个值低于之前的研究结果。成功率低的部分原因是新的工艺节点引起了一些尚未完全理解的问题。在此之前,已经存在了一段时间的问题被整合到工具和流程中,使这些已知的问题不那么具有威胁性。然而,在 2018 年,混合信号接口、串扰(Crosstalk)、时序和 IR-Drop,所有这些已知的问题导致了芯片改版的比例大大上升。

导致芯片改版的 ASIC 缺陷类型 | 来源:2018 年功能验证研究报告,由 Wilson Research Group 和西门子 Mentor 事业部发布

“一些客户的芯片之所以失败,是因为它们的设计过程较为特殊。”Synopsys 的产品经理 Kenneth Chang 说道。“一位客户进行了 block 级功耗分析,然后进行了集成。他们认为在那个阶段他们可以修复问题,但是事与愿违,芯片也就失败了——原因在于旧方法不再适用于新的先进技术。”

并非说一个芯片只有在不能工作时才是失败。Cadence 公司 Digital 和 Signoff 部门产品管理总监 Jerry Zhao 认为,“如果一个芯片没有达到性能目标,那也是失败”,“如果芯片的运行速度比预期低 10%,那么它在市场上可能就没有竞争力了。”

电源正成为一个挑战,尤其是当电源是在芯片上的时候。ARM 公司的物理设计团队高级解决方案营销经理 Lisa Minwell 表示,“电力传输网络(PDN)是一个分布式 RLC 网络,可以分为三部分:片上、封装和板上”,“片上需要更快的时钟频率、更低的工作电压和更高的晶体管密度。虽然先进的 finFET 技术实现了性能的持续提升,但功率密度的增加使 IR Drop 闭合成为一个挑战。精确建模和最小化电压裕度对于平衡能量效率和鲁棒性至关重要。”

但裕度可能是悲观的,从而限制了竞争力。尽管发现了问题,一些公司还是冒着风险继续前进。 “一家大型存储器公司在明知有大量的 IR Drop 问题的情况下照样出带(tape out)”,Kenneth Chang 说道 ,“只要看起来不太糟糕,他们就会选择 tape out,因为日程表对他们来说更加重要。客户正在学习,在这种情况下,他们的芯片并没有失败。如果他们不失败,他们就会继续做他们正在做的。当它们到达更具进取性的节点时,它们就需要变得更加受指标驱动,并执行 EMIR 分析。”

越来越多的问题也开始并发出现,例如功率、IR Drop、发热、时序、电迁移都是相互联系的,但对大部分问题的分析都是分开进行的。Jerry Zhao 指出,“电源噪音是个问题”,“电压供应正在下降,同时用户希望获得更高的性能。电池没有提供太多动力,也许有 850 毫伏,但你仍然想要 3GHz 的性能。电源噪声会产生重大影响,尤其是当晶片中存在变化时,这种噪声会随时间和位置而变化。因此,不同位置的同一个电池可能会因电压下降而失效,从而导致时序延迟。你必须在电压下降的背景下分析电池,并进行静态电压感知时序分析。有些路径对电压变化非常敏感。”

随着问题得到更好的理解,工具可以执行更好的分析,并且可以使用设计方法来规避问题。 “复杂性导致更大的功率密度,这反过来又在芯片内产生局部加热(热点)。” Moortec 公司的营销副总裁 Ramsay Allen 解释道,“栅极密度的增加也会导致供电电压更大的下降。在整个设计中,高精度温度传感器和电压监控器使系统能够管理和适应这些条件,通过为热管理和电源异常检测提供解决方案,提高设备可靠性并优化性能。这在数据中心人工智能设计中尤其重要,因为性能要求的提高使设计在温度和电压方面承受了巨大的压力。”

死于制造

半导体器件的制造涉及到仅有几纳米的结构。作为参照,人类的 DNA 链直径为 2.5 纳米,而人类的头发直径为 80000 至 100000 纳米。一粒灰尘可以摧毁晶圆上的几个单元裸片。如果裸片的尺寸变大,随机失效的几率就会增加。对于成熟的工艺节点,可以获得 80% 到 90% 的出片率。然而,对于较新的节点,出片率可能显著低于 50%,尽管实际的数字是严格保密的。

晶圆缺陷图案 | 资料来源:Marvell Semiconductor,ITC 2015。

即使是不受灾难性影响的裸片也可能不被划在可工作的范围内。制造步骤不完善时,即使只有一个原子的工艺变化也会产生显著的差异。虽然这可能不会对设计的某些部分产生影响,但如果工艺变化恰好与关键的时序路径相吻合,则可能会使器件不符合规范。

ANSYS 公司的 ESD/Thermal/Reliability 产品经理 Karthik Srinivasan 表明,“随着设计演变为具有先进封装的深亚微米技术,现有的模拟工具和设计方法不能很好地捕捉到变异性及其对可靠性的影响”,“这会导致设计流程中出现漏洞,从而引发一些故障。”

设计流程越来越多地允许在开发早期就考虑到变化,以最大程度地减少其影响,而冗余等设计技术可以减少需要丢弃的“几乎可以工作”的芯片的数量。“几乎可以工作”的芯片在大型内存阵列中非常常见,按照它们在测试中表现出的性能进行相应的分类(binning)是常用于处理器的另一种做法。也就是,在高频率下运行的优良器件可以以更高的价格出售,而那些只有在低频率时才能成功工作的器件则以折扣价出售。

测试的作用是找出哪些裸片功能完好。那些处于临界状态的裸片通常会被丢弃,但是一些有功能缺陷的裸片也会被漏检,并最终进入正式产品中。

死于静电处理

有很多种方法可以杀死芯片。如果将 0.5V 的电压施加到芯片的外部,就会在 1 纳米的电介质上产生 0.5MV/m 的电场。这足以使高压电线起弧。现在想象一下当你接触芯片的引脚时会发生什么。

“通常情况下,这是一个很高的电压,根据引脚的接触方式,会有不同的模型,例如人体模型或电荷分布模型(CDM)。”Jerry Zhao 解释说,“这些模型定义了电流如何被引入引脚,这是一种随时间变化的动态波形。”

通常,芯片都会有静电放电(ESD)保护。“对于封装内的单个裸片,它们的目标是像 2KJ 这样的标准,”Karthik Srinivasan 指出,“像 HBM 这样的多芯片解决方案的标准稍低一些。采用 2.5D 或 3D IC 的一个原因是为了性能,而 ESD 是性能的障碍。你试图最小化 ESD,甚至在这些 Wide I/O 接口或任何类型的多芯片接口通道上消除它,这意味着你不能真正地按照针对单个裸片的相同标准来测试每个裸片。它们必须通过更专业的测试方法,因为它们的 ESD 保护非常小,甚至可能没有 ESD 保护。”

即使在操作过程中,静电放电事件也会引起问题。ARM 公司的 Minwell表示:“在便携式电子产品中,ESD 可以导致许多类型的软错误。”在 ESD 事件期间,由于某些集成电路振荡器集成电路、CPU 和其他集成电路)的灵敏度,或由于其与配电系统(PDN)的场耦合,都可能导致在配电系统上产生噪声。

死于关联问题

“软错误可以以多种方式发生,如果是系统性的设计错误,它可以使芯片看起来好像不工作。三维集成电路(3D IC)正在增加对电磁感知设计方法的需求,”Helic 公司的营销副总裁 Magdy Abadir 指出,“这是因为产生的功率密度更高,叠加层的数量也在增加,从而引发了增加天线的风险,这会放大整个设计过程中产生的磁场。”

供电不足也会带来问题。Jerry Zhao 指出,“芯片的功能取决于晶体管的跃迁”,“这取决于供电电压。如果它能在 1V 电压下工作,它可能会再下降 10% 或 20% 也仍然可以正常工作。但时序会有所不同,因此可能需要降低最大时钟频率。”

随着电压的降低,电路更容易受到噪声的影响。“电磁干扰(EMI)是芯片对环境产生的噪音,”Ansys 公司的半导体事业部首席技术专家 Norman Chang 表示,“噪声源来自有源电路,它将在电源地线和信号线上产生电流。电源线/接地线将通过封装到 PCB,如果它看到封装或 PCB 有天线结构,就会引起空中辐射,然后通过天线结构辐射到环境中并产生干扰。”

但出去的东西也会进来。“电磁敏感性(EMS)是人们不得不担心的一个新问题,” Norman Chang 指出,“电力注入测试是从 150kHz 开始注入 1W 电量,一直到 1GHz。在每个频率,你将向系统注入 1W 的电量。如果你没有足够的保护,就会破坏沿路径进入芯片的电路。测试的目的不是为了破坏芯片,而是测试这种噪声是否会影响电路。或者引脚处的电压可能过高,如果电压过高,则会产生过电应变。”

死于操作

此时,芯片已经到达“现场”并被认为是可以工作的。“可靠性是个大问题,”Microchip 公司模拟电源和接口部门的首席产品营销工程师Fionn Sheerin 指出,“在很多情况下,糟糕的热设计并不会导致瞬间灾难性的故障,甚至不会产生平庸的产品。但是它会使器件的使用寿命缩短。观察布局中的热点或最佳布局实践以及良好的层次规划可能会产生不同的效果。这也是验证和可靠性测试真正重要的地方,同时也是汽车应用的功能安全问题。”

西门子 Mentor 事业部的产品营销总监 Joe Davis 也赞同这一观点,“发热导致的问题不仅仅是你的手机在口袋里变热。它会导致晶体管和它们之间的连接退化。这会影响性能和可靠性。”

热量由两个来源产生,“首先是路由层,” Jerry Zhao 分析表示,“这是与导线中的电流有关的热量。模拟电路的电流比数字电路大。因此,模拟电路的设计人员不得不担心的一个问题就是,如果温度过高,会使电线熔化;第二个来源是晶体管。当我们迁移到 finFET 时,其中一个新的现象是自热。热量沿着弱电阻路径运动,然后从晶体管的散热片中垂直逸出,这会增加电线中的热量。”

当高电流和高热量聚集在一起时,电迁移效应会慢慢损坏导线。同样地,负偏压温度不稳定性(NBTI)等物理效应也会有同样的效果。当电流很大时会对器件产生应力,如果持续足够长的时间,则会导致永久性损伤。

结论

本文仅仅包含了芯片从设计到产品,再到产品的整个生命周期中所面临的一些挑战。

芯片的工作环境恶劣,半导体行业已经学会了如何应对这些挑战。但随着制造尺寸越来越小或采用了新的封装技术,新的问题随之出现。有时,这些新的影响会导致器件失败故障。但从历史上看,该行业很快学会了规避新的问题或将问题最小化的方法。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    453

    文章

    50378

    浏览量

    421691
  • 静电
    +关注

    关注

    1

    文章

    502

    浏览量

    36304

原文标题:谁杀死了芯片?

文章出处:【微信号:mcuworld,微信公众号:嵌入式资讯精选】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    线上逛展 | 沉浸探索第三届OpenHarmony技术大会五大展区

    世博中心又有什么大事发生? 第三届OpenHarmony技术大会 五大展区全方位展示智慧互联未来 雷科技从现场发来探展邀约 一起跟随他的视角漫步展区 在精彩纷呈的特色产品、应用案例中 体验OpenHarmony的快速发展吧!
    发表于 10-24 21:50

    IC芯片检测新纪元:X-RAY设备的五大创新优势

    。在众多检测方法中,X-RAY检测设备凭借其独特的优势,在IC芯片检测领域发挥着越来越重要的作用。本文将深入探讨X-RAY检测设备在IC芯片检测中的五大优势,并阐述
    的头像 发表于 07-26 10:03 444次阅读
    IC<b class='flag-5'>芯片</b>检测新纪元:X-RAY设备的<b class='flag-5'>五大</b>创新优势

    聚徽触控-工控主板的五大优势分别是什么

    工控主板的五大优势主要如下:
    的头像 发表于 07-17 09:58 295次阅读

    计算机视觉的五大技术

    计算机视觉作为深度学习领域最热门的研究方向之一,其技术涵盖了多个方面,为人工智能的发展开拓了广阔的道路。以下是对计算机视觉五大技术的详细解析,包括图像分类、对象检测、目标跟踪、语义分割和实例分割。
    的头像 发表于 07-10 18:26 1183次阅读

    EVASH Ultra EEPROM:被Google认定为五大硬件厂商之一

    EVASH Ultra EEPROM:被Google认定为五大硬件厂商之一
    的头像 发表于 07-01 12:47 278次阅读

    普通测径仪和智能测径仪的五大区别

    五大区别。 一、测量精度与稳定性的差异 普通测径仪通常采用机械或光学原理进行测量,其测量精度受到机械结构、光学元件以及环境因素的影响较大,因此其精度和稳定性相对有限。而智能测径仪则采用更先进的激光扫描
    发表于 05-29 17:33

    关于气密性检测仪的五大优势,你get到了吗

    在现代工业生产中,产品的气密性检测已经成为一个关键步骤。为了保证产品的质量和性能,密封操作尤为关键。气密性检测仪作为一种专业的检测仪器,其五大优势在许多行业得到了广泛的应用。接下来,让我们揭示它的五大优势。
    的头像 发表于 04-09 14:30 336次阅读
    关于气密性检测仪的<b class='flag-5'>五大</b>优势,你get到了吗

    紫光展锐与五大银行签署银团协议,共促集成电路产业创新与发展

    近日,紫光展锐银团签约仪式在上海隆重举行,这一重大合作由工商银行、建设银行、浦发银行、招商银行、中信银行等五大银行联手支持。签约仪式在上海市经信委、上海市发改委、浦东新区以及五大银行相关领导的共同见证下,紫光展锐执行副总裁、首席财务官、董事会秘书杨芙与
    的头像 发表于 03-11 09:39 518次阅读

    职业健康在线监管系统五大功能

    职业健康在线监管系统五大功能 职业健康是健康中国建设的重要基础和组成部分,国家相关部门高度重视职业健康工作。公众智能监测响应国家建设需求,研发推出了职业健康在线监管系统。 职业健康在线监管系统的五大
    的头像 发表于 03-04 17:04 476次阅读
    职业健康在线监管系统<b class='flag-5'>五大</b>功能

    AI PC元年,全球前五大PC厂商如何领跑?

      电子发烧友网报道(文/吴子鹏)根据IDC的统计数据,目前全球前五大PC厂商分别是联想、惠普、戴尔、苹果和华硕。其中,联想以23.5%的市占率处于第一位,惠普、戴尔、苹果和华硕的市占率分别
    的头像 发表于 02-26 08:09 3757次阅读
    AI PC元年,全球前<b class='flag-5'>五大</b>PC厂商如何领跑?

    2024年锂电行业五大投资变化及未来三大投资新机会

    GGII梳理了2023年锂电行业五大投资变化及未来三大投资新机会。
    的头像 发表于 01-15 09:27 1083次阅读
    2024年锂电行业<b class='flag-5'>五大</b>投资变化及未来三大投资新机会

    电机的五大启动方式

    自动化小白必学!电机的五大启动方式
    的头像 发表于 01-09 10:39 849次阅读
    电机的<b class='flag-5'>五大</b>启动方式

    燃油系统压力异常会导致什么故障现象

    燃油系统压力异常可能导致多种问题和故障,因为正常的燃油压力对引擎性能至关重要。
    的头像 发表于 12-12 11:15 752次阅读
    燃油系统压力异常会<b class='flag-5'>导致</b>什么<b class='flag-5'>故障</b>现象

    恒流负载导致的启动故障

    恒流负载导致的启动故障
    的头像 发表于 12-04 15:46 372次阅读
    恒流负载<b class='flag-5'>导致</b>的启动<b class='flag-5'>故障</b>

    springcloud alibaba 五大组件

    Spring Cloud Alibaba是Spring Cloud的一个子项目,该项目致力于为构建分布式应用提供一站式解决方案。它基于阿里巴巴的底层Java开源框架,主要包含以下五大组件: 服务注册
    的头像 发表于 12-03 16:30 2w次阅读