0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

技术干货 | AI浪潮下的光模块可靠性

广电计量 2024-08-13 09:37 次阅读

人工智能AI)技术的快速发展对数据处理和传输提出了前所未有的挑战。在深度学习、自然语言处理和计算机视觉等AI应用中,训练和学习需要巨大的数据量传递和交互。2023年GPT-4模型所需训练的参数量有1.8万亿,要完成这么大的数据量的运算,需要上万个GPU同时工作。如此庞大的数据传输对于传统铜缆而言是个巨大的挑战,因此光模块在数据传输中发挥着非常重要的作用。光模块在AI和数据中心中负责数据的转换,将1bit的电信号转为光信号,把1bit的光信号转为电信号。400G模块,能转换0.4T bit,800G光模块,转换0.8T bit,以GPT-4的训练参数计算,完成一次计算所需要调用的光模块数量就可能多达数万。而随着大模型的不断进化和训练参数的急速增加,对光模块的需求量只多不少。

AI场景对光模块的故障率要求

因为训练数据量大,所以AI场景架构采用GPU运算更合适,这与传统的数据中心的服务器类型有所区别。CPU是串行运算,通常有较少的核心(一般在2到32个核心之间),每个核心都非常强大,适合执行复杂的单线程任务,适用于传统数据中心的串行结构。GPU是并行运算,拥有大量的核心(数百到数千个),每个核心较简单,适合执行大量的并行任务,因此更适用数据量超大的AI场景。传统的数据中心结构,是基于串行方式的,对时延的要求虽然很看重,但不像AI场景中对时延的苛刻要求。并行任务的结果就是成千上万的并行数据要传输,整个数据的完成是以时延最大,最慢的那个bit为准的。其他再快也不行。

光模块的故障率比传统的电学芯片的要高很多很多,光模块选择热插拔,也是因为光学器件的故障率很高,用热插拔方便维修和更换。传统的数据中心,光模块对于故障率的要求比传统通信更宽松,少量的故障并不会影响到整体的运行传输,所以遇到光模块故障后及时更换就可以了。但对于基于AI的这种场景就不适用,大数据量的并行计算,而且不是实时保存的。如果有任何一个数据传错了,那么整体要重来,重新计算一遍。中国移动也曾提到当前人工智能中主流万卡集群的GPU网络每月最大会发生上千次闪断,其中34%是与网络相关。其中每年大概会有60次左右的光模块故障导致的训练中断,而且故障定位也通常会需要数天到数十天之久。所以光模块失效率高会导致大的丢包率和维护成本,从而给设备服务商带来巨大的运营压力。因此在AI场景中对光模块可靠性的要求非常苛刻。

AI大模型中丢包率导致训练所需时间增长

图1 AI大模型中丢包率导致训练所需时间增长

AI场景光模块的可靠性问题

综上所述,对于传统数据中心而言,一般会把可靠性的要求放宽,是因为通常在实际部署中,数据中心的树形网络结构是配置了冗余的,从而这此前提下放宽了对模块故障率的要求。冗余越大,有更多的节点可以实现业务传输,光模块的失效率略大一些是不影响整体通信的。因此传统数据中心的光模块,有很长一段时间,是非气密封装,因为非气密封装,故障率会高一些,但成本也会下降很多。

但AI大模型与传统数据中心不同,AI场景所采用的并行计算,如上一节所讲,对故障零容忍,对光模块的稳定性要求极高。因此,非气密封装已经不能满足可靠性要求了,各家厂商又开始使用气密封装降低失效率。光模块中产生的可靠性问题主要是光器件失效引起的,包括激光器、探测器和其他元器件,其中激光器失效最高。阿里曾经做过统计,在光模块众多的元器件中,超过90%以上的失效是与激光器相关的。

wKgaoma6uNSAfvtSAABrvbSmEgA777.png

图2 阿里统计的光模块各元件失效占比统计

光模块自身已经面临非常高的可靠性风险了,然而光模块从400G、800G发展到1.6T,模块功耗随着芯片功率、射频损耗,DSP补偿等迅速增加,功耗增加提高了光模块实际的工作温度,同样也使得光模块寿命急速缩短,可靠性急剧下降。光模块温度升高,激光器芯片的发光效率降低,废热更大,也会带来可靠性风险。

功耗增加机柜温度升高可靠性下降

图3 功耗增加机柜温度升高可靠性下降

现行可供参考的可靠性标准如GR-468,一方面从标准提出到现在已有二十余年时间,另一方面该标准是作为通信用光电子器件的可靠性标准,对AI场景并不适用。近年来,大模型使用方以及光模块厂商都对光器件提出了更严格的可靠性要求。在2023年CIOE上,阿里提出了自身对于光芯片可靠性的认证要求,要求光模块FIT小于125,即有1000个光模块在工作,5年后,只允许5个出现故障。同时也对激活能Ea,和n做了限定,限定激活能 Ea=0.35,n=0。老化公式的n,是加速压力的指数,可以是电流,温度,或者湿度,关键取决于芯片设计里哪个因素的影响最大。以电流为例,如果n按照3取值,老化电流是工作电流的1.5倍,得出激光器工作寿命是10年。如果相同条件下n取为0,那么寿命就只有3年了。Ea和n都取最小值,会得到很小的加速系数,最终会计算出很大的FIT值,这样一来对可靠性的要求就更为苛刻了。

wKgZoma6uNSAeTRlAAA_SKky0L0632.png

图4 可靠性中加速系数计算公式

如何提升光模块可靠性

光模块的可靠性重点关注的就是激光器。激光器从发光原理、制造工艺来看,降低优化的程度有限,并不能完全达到电芯片的尺度,近期内也不会有颠覆性的技术改良大幅提高可靠性。对于光模块的可靠性控制重点还是在实际使用时的早期失效和随机失效,早期失效可以通过选用一定参数的加速老化进行剔除,老化的条件,时间都需要通过科学的计算,避免老化时间过短剔除不到位或者时间过长降低产品寿命。对于随机失效,目前有些方案如finisar等公司采用的备份激光器,通过增加多组激光器作为备用降低失效率,一个坏了立刻切到另一个好的激光器去工作,但是增加一组备份,成本、空间、功耗,又增加了很多难度。海思设计过一种智能光模块,通过实时监控光模块多种参数状态,采用大数据训练主动对光模块做预警,提前判断光模块即将失效,这要求厂家对自身产品数据要有十分全面的掌握。

广电计量光电器件可靠性分析

光模块市场近两年随着AI浪潮的出现展现出了广阔的想象空间,但也给光模块的可靠性带来了更高的挑战。过去厂家不重视模块的可靠性,缺乏对产品的失效评估,而现在解决产品可靠性问题,将会是占领用户市场,打通产品从送样到批量供货的关键。

广电计量是国内第一家完成激光发射器、探测器全套AEC-Q102车规认证的国有第三方上市检测机构,具备VCSEL、LED、APD、SPAD等激光器和探测器批次性验证试验能力,具有丰富的光电器件可靠性验证经验。在人才队伍上,形成以博士、专家为核心的光电器件测试分析团队,可以协助客户定制可靠性评估方案,建立准确的产品失效模型,满足客户在可靠性、失效分析领域的认证检测需求。

广电计量半导体服务优势

  • 工业信息化部“面向集成电路、芯片产业的公共服务平台”
  • 工业和信息化部“面向制造业的传感器等关键元器件创新成果产业化公共服务平台”
  • 国家发展和改革委员会“导航产品板级组件质量检测公共服务平台”
  • 广东省工业和信息化厅“汽车芯片检测公共服务平台”
  • 江苏省发展和改革委员会“第三代半导体器件性能测试与材料分析工程研究中心”
  • 上海市科学技术委员会“大规模集成电路分析测试平台”

在集成电路及SiC领域是技术能力最全面、知名度最高的第三方检测机构之一,已完成MCU、AI芯片、安全芯片等上百个型号的芯片验证,并支持完成多款型号芯片的工程化和量产。

在车规领域拥有AEC-Q及AQG324全套服务能力,获得了近50家车厂的认可,出具近400份AEC-Q及AQG324报告,助力100多款车规元器件量产。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    29611

    浏览量

    267904
  • SiC
    SiC
    +关注

    关注

    29

    文章

    2718

    浏览量

    62326
  • 光模块
    +关注

    关注

    75

    文章

    1224

    浏览量

    58805
收藏 人收藏

    评论

    相关推荐

    PCB高可靠性化要求与发展——PCB高可靠性的影响因素(上)

    可靠性提出了更为严格的要求,特别是在焊接点的结合力、热应力管理以及焊接点数量的增加等方面。本文将探讨影响PCB可靠性的关键因素,并分析当前和未来提高PCB可靠性的制造技术发展趋势。
    的头像 发表于 10-11 11:20 192次阅读
    PCB高<b class='flag-5'>可靠性</b>化要求与发展——PCB高<b class='flag-5'>可靠性</b>的影响因素(上)

    晶科能源荣获2024年伏组件可靠性“表现最佳”荣誉

    近日,晶科能源宣布其在Kiwa PVEL发布的2024年伏组件可靠性记分卡报告中斩获“表现最佳”荣誉。
    的头像 发表于 06-19 09:58 591次阅读

    请问FATFS文件系统可靠性如何?

    ST官方固件库中使用了FATFS文件系统,想问下,这个文件系统可靠么? 我想了解一,有哪位朋友真正产品上使用FATFS文件系统,可靠性有什么问题没有。
    发表于 05-16 06:35

    AC/DC电源模块可靠性设计与测试方法

    OSHIDA  AC/DC电源模块可靠性设计与测试方法 AC/DC电源模块是一种将交流电能转换为直流电能的设备,广泛应用于各种电子设备中,如电脑、手机充电器、显示器等。由于其关系到设备的供电稳定性
    的头像 发表于 05-14 13:53 614次阅读
    AC/DC电源<b class='flag-5'>模块</b>的<b class='flag-5'>可靠性</b>设计与测试方法

    翠展微新能源汽车功率模块的关键技术突破与可靠性验证

    随着新能源汽车的快速发展,功率模块作为新能源汽车的能量转换的装置,其重要不言而喻。由于汽车的行驶环境非常复杂,车企对于功率模块的振动要求也越来越高,因此对模块封装的
    的头像 发表于 04-12 16:18 1238次阅读
    翠展微新能源汽车功率<b class='flag-5'>模块</b>的关键<b class='flag-5'>技术</b>突破与<b class='flag-5'>可靠性</b>验证

    如何确保IGBT的产品可靠性

    标准。安森美(onsemi)作为一家半导体供应商,为高要求的应用提供能在恶劣环境运行的产品,且这些产品达到了高品质和高可靠性。之前我们分享了如何对IGBT进行可靠性测试,今天我们来介绍如何通过
    的头像 发表于 01-25 10:21 1503次阅读
    如何确保IGBT的产品<b class='flag-5'>可靠性</b>

    IGBT的可靠性测试方案

    标准。安森美 (onsemi) 作为一家半导体供应商,为高要求的应用提供能在恶劣环境运行的产品,且这些产品达到了高品质和高可靠性
    的头像 发表于 01-17 09:56 1269次阅读
    IGBT的<b class='flag-5'>可靠性</b>测试方案

    半导体可靠性测试项目有哪些

    半导体可靠性测试主要是为了评估半导体器件在实际使用过程中的可靠性和稳定性。这些测试项目包括多种测试方法和技术,以确保产品的性能、质量和可靠性满足设计规格和用户需求。下面是关于半导体
    的头像 发表于 12-20 17:09 2181次阅读

    SD NAND 可靠性验证测试

    产品质量和市场竞争力。MK-米客方德是一家做存储的公司,是SDNAND技术的引领者,工业应用的领导品牌。其公司SDNAND产品都有可靠性验证测试报告,SDNAND可靠性验证测试报
    的头像 发表于 12-14 14:29 610次阅读
    SD NAND <b class='flag-5'>可靠性</b>验证测试

    电源模块测试分享之电源可靠性测试方法

    可靠性测试是电源模块测试的一项重要测试内容,是检测电源模块稳定性、运行状况的重要测试方法。随着对电源模块的测试要求越来越高,用电源模块测试系
    的头像 发表于 12-13 15:36 1326次阅读

    提高PCB设备可靠性技术措施

    提高PCB设备可靠性技术措施:方案选择、电路设计、电路板设计、结构设计、元器件选用、制作工艺等多方面着手,具体措施如下: (1)简化方案设计。 方案设计时,在确保设备满足技术、性能指标的前提下
    发表于 11-22 06:29

    可靠性PCB的十一大重要特征

    了许多电子产品的基本要求。接下来深圳PCB板厂就为大家介绍可靠性PCB的重要特征。 高可靠性PCB的重要特征 1、做到25μm的孔壁铜厚可以增强可靠性,包括改进Z轴的耐膨胀能力;
    的头像 发表于 11-20 10:14 480次阅读

    如何提升基于DC-DC模块的电源系统的可靠性

    如何提升基于DC-DC模块的电源系统的可靠性? 基于DC-DC模块的电源系统可靠性是关乎设备稳定运行的重要因素。为了提高可靠性,我们可以从设
    的头像 发表于 11-17 14:35 578次阅读

    可靠性试验(HALT)及可靠性评估技术

    国家电网:在就地化保护入网检测中,首次引入可靠性试验,验证产品可靠性设计水平和寿命指标。在关于新型一、二次设备(例如:电子式互感器)的科研项目中,增加了可靠性验证和寿命评估等相关研究课题。
    的头像 发表于 11-13 16:32 1305次阅读
    <b class='flag-5'>可靠性</b>试验(HALT)及<b class='flag-5'>可靠性</b>评估<b class='flag-5'>技术</b>

    模块厂家如何提高千兆模块和万兆模块可靠性

    千兆模块和万兆模块在现代通信设备中应用广泛,但其可靠性一直是
    的头像 发表于 11-13 11:01 490次阅读