0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI芯片的可靠性对终端应用有何影响

lPCU_elecfans 来源:电子发烧友网 作者:电子发烧友网 2022-04-26 08:25 次阅读

电子发烧友网报道(文/周凯扬)当我们谈及AI芯片,脑海中不免都会想起TOPS、L4/L5自动驾驶、图像识别和处理算法等词。但在初创企业、芯片大厂纷纷追逐“AI热“的情况下,芯片的可靠性成了一个大问题,甚至对终端应用也有较大的影响。

自动驾驶故障,不止OEM要担责

经常关注汽车新闻的读者想必都很清楚,近年来因为自动/辅助驾驶引发的事故越来越多,起因多种多样,但很少会将其追溯到芯片上。有的车企为了追求快速上市,其AI芯片很可能只有AEC-Q100认证,而没有ISO 26262这样的功能安全认证,在他们看来这些标准太过“传统”了,对于产品的创新流程来说有些多余了。

这在消费者眼里也是如此,我们对功能的感知是最为直观的,而对故障的感知只要在接受范围来就好。这就使得此类车厂可以以一种“手机APP”开发式的模式运作,实现快速迭代。然而,这并不代表功能安全可以被忽视,毕竟当坏事落在自己头上时,总得要个说法吧。

在实现功能安全的过程中,从提出要求、架构、设计、编程到测试阶段,都有对应的确认与验证工作,然而通过验证是一回事,能否实现追溯就是另一回事了。比如设计上的改动可能会违背芯片要求等等,最终导致实际性能不符等问题,所以在功能安全开发设计和认证的过程中,必须要做到可追溯。

IP厂商Arteris提出了一个追溯方案名为Harmony Trace,帮助芯片厂商更好地实现功能安全。Harmony Trace在这些分散的流程系统之间创造了一层整合系统,用于追踪半导体产品寿命周期中的所有失误。一旦违反芯片要求的错误出现,这套系统就会通知工程师这项改动需要进行检查,从而自动化车规认证的审查流程。当然了,芯片开发厂商所用的开发工具流都是不尽相同的,所以Harmony Trace也提供了对现有主流EDA工具、认证流程的支持。

在自动驾驶安全标准继续演进,ISO 21448和UL4600等标准提出的额外要求下,在AI芯片设计中保证可追溯性或许是缩短产品开发认证周期的一条捷径。

可靠性第一

事实证明,不止自动驾驶领域,云端同样需要可靠的AI计算芯片。我们从现在的云端计算集群来看,多个节点为云服务提供了强大的计算能力,但正是因为这般复杂的架构,每一个节点都有可能成为整个系统的阿喀琉斯之踵。

这样的案例我们也见多了,甚至开始影响到我们的生活,热搜上时不时就会冒出“某某应用崩了”的消息,互联网公司经受的服务器故障可谓数不胜数,而且苦于定位故障来源,这其中,芯片也脱离不了干系。

造成这些后果的芯片可靠性问题主要有三种,早期失效(ELF)和正常设备运行下的随机失效,还有不可避免的设备老化。芯片都是有着工作寿命的,所以最后一项难以从设计上解决,最多尽可能延长其寿命,而前面两者才是当下云端需要提防的问题。

常见的早期失效有闸极氧化层失效、老化效果不好和软击穿等,随机失效很多与运行环境有关,比如温度过高、辐射过高等等。

为了进一步让AI芯片免受这些可靠性问题的影响,初创公司Ceremophic公布了自己研发的QS1芯片。这是一款基于5nm工艺的分层学习芯片,集成了2GHz自定义机器学习处理器、2GHz的自定义FPU处理机器学习计算,还有一个基于ThreadArch的RISC-V处理器和ARM Cortex-M55应用处理器,Ceremophic称后者主要用于元宇宙相关应用的视频处理。在接口方面,该芯片支持到x16 PCIe 6.0/CXL 3.0。

那么这款芯片在可靠性上的亮点又有哪些呢?Ceremophic称对于早期失效而言,他们选用了高效的ASIC实现方式来使用抗ELF的逻辑库,在正确的逻辑单元组合下以最小的设计开销做到低ELF。

而在面对随机失效上,Ceremophic用到了自己的多线程技术,利用两个多线程处理器运行同一程序,一旦检测到错误,就会利用多个结果来做出表决,并进行修正,接着程序执行会直接从检测到错误发生的地方开始运行,而不是一个未知的安全起始点,消耗更多的功耗。

在传统的高可靠性设计中,往往都得采用高成本的解决方案,比如冗余,就像是需要在两个地方做同一件事,带来计算资源和功耗的双重增加。不仅如此,解决方式也需要消耗更多的运行周期,这也是为何云端服务器出现故障后,不能快速恢复的原因。

原文标题:AI芯片不只拼算力,还得看可不可靠

文章出处:【微信公众号:电子发烧友网】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 可靠性
    +关注

    关注

    4

    文章

    264

    浏览量

    26731
  • 自动驾驶
    +关注

    关注

    783

    文章

    13721

    浏览量

    166234
  • AI芯片
    +关注

    关注

    17

    文章

    1862

    浏览量

    34941

原文标题:AI芯片不只拼算力,还得看可不可靠

文章出处:【微信号:elecfans,微信公众号:电子发烧友网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    无铅焊接的可靠性

    电子发烧友网站提供《无铅焊接的可靠性.pdf》资料免费下载
    发表于 10-16 10:50 5次下载

    PCB高可靠性化要求与发展——PCB高可靠性的影响因素(上)

    在电子工业的快速发展中,印刷电路板(PCB)的可靠性始终是设计和制造的核心考量。随着集成电路(IC)的集成度不断提升,PCB不仅需要实现更高的组装密度,还要应对高频信号传输的挑战。这些趋势对PCB
    的头像 发表于 10-11 11:20 292次阅读
    PCB高<b class='flag-5'>可靠性</b>化要求与发展——PCB高<b class='flag-5'>可靠性</b>的影响因素(上)

    SGS受邀参加Ansys车规芯片功能安全和可靠性研讨会

    近日,由Ansys主办的“Ansys车规芯片功能安全和可靠性研讨会”在上海召开,作为国际公认的测试、检验和认证机构,SGS受邀出席并发表《车规可靠性认证及功能安全》主题演讲,分享SGS在汽车电子领域的深入见解和专业经验,助力推动
    的头像 发表于 07-27 11:37 704次阅读

    基于可靠性设计感知的EDA解决方案

    产品可靠性,包括制造和运营方面,正在成为芯片-封装-系统迭代设计周期中设计的关键方面,尤其是那些有望承受更长使用寿命和可能的恶劣操作环境的产品,例如汽车电子系统、高性能计算 (HPC)、电信
    的头像 发表于 07-15 09:56 375次阅读
    基于<b class='flag-5'>可靠性</b>设计感知的EDA解决方案

    汽车功能安全与可靠性的关系

    当前,随着汽车领域的飞速发展,汽车也被重新定义。在汽车电子电气系统设计时,离不开对功能安全和可靠性设计的考虑。正确理解两者之间的关系,有助于更好地分析问题和解决问题。什么是汽车可靠性汽车可靠性是指
    的头像 发表于 07-13 08:28 3193次阅读
    汽车功能安全与<b class='flag-5'>可靠性</b>的关系

    请问FATFS文件系统可靠性如何?

    ST官方固件库中使用了FATFS文件系统,想问下,这个文件系统可靠么? 我想了解一下,哪位朋友真正产品上使用FATFS文件系统,可靠性什么问题没有。
    发表于 05-16 06:35

    浅谈PCB电路板的可靠性测试

    随着时代的发展,PCB电路板在各种终端产品中发挥着重要作用,产品竞争日益激烈,因此对PCB产品的可靠性提出了更高的要求。
    发表于 04-09 11:20 762次阅读
    浅谈PCB电路板的<b class='flag-5'>可靠性</b>测试

    中芯国际获CNAS认可,车载芯片可靠性专项检测中心获认证

    中芯国际车载芯片可靠性专项检测中心涵盖了公司自身工艺和IP、第三方IP或客户产品的全面测试能力。根据AEC-Q100标准,配备了需满足产品可靠度的多项测试设施,能满足车载芯片的全方位
    的头像 发表于 03-20 14:32 798次阅读

    半导体可靠性手册

    电子发烧友网站提供《半导体可靠性手册.pdf》资料免费下载
    发表于 03-04 09:35 22次下载

    如何确保IGBT的产品可靠性

    在当今的半导体市场,公司成功的两个重要因素是产品质量和可靠性。而这两者是相互关联的,可靠性体现为在产品预期寿命内的长期质量表现。任何制造商要想维续经营,必须确保产品达到或超过基本的质量标准和可靠性
    的头像 发表于 01-25 10:21 1586次阅读
    如何确保IGBT的产品<b class='flag-5'>可靠性</b>

    IGBT的可靠性测试方案

    在当今的半导体市场,公司成功的两个重要因素是产品质量和可靠性。而这两者是相互关联的,可靠性体现为在产品预期寿命内的长期质量表现。任何制造商要想维续经营,必须确保产品达到或超过基本的质量标准和可靠性
    的头像 发表于 01-17 09:56 1372次阅读
    IGBT的<b class='flag-5'>可靠性</b>测试方案

    什么是MPLS?特点?与SD-WAN区别?

    什么是MPLS?特点?与SD-WAN区别? MPLS是多协议标签交换的缩写,是一种网络传输协议。它被设计用于提高数据包转发的速度和效率,同时提供弹性和
    的头像 发表于 12-27 14:09 693次阅读

    半导体可靠性测试项目哪些

    半导体可靠性测试主要是为了评估半导体器件在实际使用过程中的可靠性和稳定性。这些测试项目包括多种测试方法和技术,以确保产品的性能、质量和可靠性满足设计规格和用户需求。下面是关于半导体可靠性
    的头像 发表于 12-20 17:09 2521次阅读

    SD NAND 可靠性验证测试

    SDNAND可靠性验证测试的重要SDNAND可靠性验证测试至关重要。通过检验数据完整、设备寿命、性能稳定性,确保产品符合标准,可提高产品的可信度、提高品牌声誉,减少维修成本,确保
    的头像 发表于 12-14 14:29 667次阅读
    SD NAND <b class='flag-5'>可靠性</b>验证测试

    环境试验与可靠性试验的区别

    环境试验与可靠性试验的区别
    的头像 发表于 12-08 09:31 953次阅读
    环境试验与<b class='flag-5'>可靠性</b>试验的区别