0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么GPU的寿命如此之短

处理器与AI芯片 来源: 处理器与AI芯片 2024-10-29 16:19 次阅读

GPU的寿命

最近外面总在讨论GPU的寿命只有三年。

为什么GPU的寿命如此之短?

我们去看看论文中是怎么说的。

三年

最近云服务提供商CSP谈到,GPU的有效使用率通常是60%-70%。

在这样的效率下,GPU的寿命通常为1年到2年,最长3年。

如果进一步提高使用率,那么GPU的寿命会进一步降低。

橡树岭国家实验室的Titan GPU

首先一份论文来自美国橡树岭国家实验室:

GPU Lifetimes on Titan Supercomputer: Survival Analysis and Reliability

这篇论文主要收集了GPU运行期间经常发生的两种错误类型:

Double Bit Error (DBE)

DBE指的是GPU memory中发生的ECC检测错误。ECC校验可以校验1bit,但是无法校验2bit。

Off the Bus (OTB)

则是CPU失去了和GPU的连接,失联了。

题外话,如果你听到橡树岭实验室比较耳熟。

那么,对,这个实验室就是当年秘密研发原子弹的一处,曼哈顿计划。

3420675a-95a9-11ef-a511-92fbcf53809c.png

实验室装备的GPU

这里还要引入一个新的概念,MTBF。指的是mean time between failure。

两次GPU失败之间的均值时间。

研究人员收集数据之后发现,DBE,OTB data error都是在3年的时候达到顶峰。

也就是使用了三年的GPU会开始大规模failure。

34268f5e-95a9-11ef-a511-92fbcf53809c.png

OTB和DBE频繁的发生在2016年成为了显著事件,触发了GPU的更新换代。

2016年更新换代:

3447e3a2-95a9-11ef-a511-92fbcf53809c.png

如上图所示,在更新换代之后,MTBF明显降低了,到了2018年,又有明显走高趋势,此时才过了两年。

这次替换了11,000块GPU,占了总体GPU数量的接近59%。

问题在哪里?

经过大量的测试分析,在材料学和显微学的研究人员的支持下,

发现问题并不在于GPU本身,而是在于电路上焊接的电阻发生了银硫化物腐蚀。

此类腐蚀物在微电子部件的环境空气中生长,并且只有在积累到了临界量的腐蚀后才会发生故障。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4709

    浏览量

    128781
  • 实验室
    +关注

    关注

    0

    文章

    159

    浏览量

    19156
  • ECC
    ECC
    +关注

    关注

    0

    文章

    97

    浏览量

    20540

原文标题:GPU的寿命

文章出处:【微信号:处理器与AI芯片,微信公众号:处理器与AI芯片】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    电解电容真的会导致LED灯具寿命短吗?

    在LED灯具之所以寿命短主要是电源的寿命短,而电源之所以寿命短是因为电解电容寿命短。本文剖析了决定电解电容寿命的主要因素,技术特点和三种延长
    发表于 07-22 18:02 2.3w次阅读

    蒙受不白之冤,电解电容真的会导致LED灯具寿命短吗?

    常常听说现在LED灯具之所以寿命短主要是电源的寿命短,而电源之所以寿命短是因为电解电容寿命短。这些说法也有一定道理。因为市面上充斥着大量的短寿命
    发表于 11-05 08:52 2252次阅读
    蒙受不白之冤,电解电容真的会导致LED灯具<b class='flag-5'>寿命短</b>吗?

    为什么peak2peak值如此之高?

    5V。专用银行由2.5V供电对于测量,我将示波器的gnd连接到FMC LPC gnd引脚之一。为什么peak2peak值如此之高?我期待2.5V!先谢谢你
    发表于 08-05 09:33

    请问为什么AXI互连资源如此之大?

    嗨!在vivado 2015.4中,我生成了AXI互连IP核,6个masterand1从站。资源是如此之大约9000片或更多,MIG约3500片。A7 100T共有15850片,没有什么可供用户使用!!AXI互连必须使用这么多资源吗?谢谢
    发表于 08-13 09:44

    铅酸电池为何寿命短?原因是什么?

    铅酸电池为何寿命短?原因是什么?
    发表于 06-10 11:04

    电池使用寿命短的原因是什么 ?

    电池使用寿命短的原因是什么 ?  1. 充电器或充电电路与电池类型不匹配 2. 过充 , 过放 3. 电池类型与用电器要求不一致
    发表于 10-24 16:00 498次阅读

    电池使用寿命短的可能原因是什么?

    电池使用寿命短的可能原因是什么? 1.        充电器或充电电路与
    发表于 11-09 17:23 458次阅读

    电动车电池寿命短的主要原因

    电动车电池寿命短的主要原因     不少用户反映电动车电池寿命短,用不到一年
    发表于 11-11 13:58 868次阅读

    电池使用寿命短的可能原因是什么?

    电池使用寿命短的可能原因是什么?
    发表于 11-13 12:12 744次阅读

    和过去说“再见”,长城汽车智能化野望

    5G、IOT(物联网)、大数据……我们与未来的距离,如此之近,又如此之远​。
    的头像 发表于 07-23 16:25 2305次阅读

    自动驾驶汽车的寿命真的很短吗

    2019年8月28日消息 “自动驾驶汽车的使用寿命将只有4年。”福特自动驾驶汽车部门运营主管约翰·里奇语出惊人。在一般人的印象中,传统汽车可以使用十几二十年,为什么自动驾驶汽车寿命如此之
    发表于 08-30 15:22 1682次阅读

    芯片售价为何如此之高?

    工业社会,石油是血液,是命脉。如今信息社会,芯片才是血液和命脉。人们进入数字生活时代,芯片成了像空气和水一样的存在。为什么小小的芯片,作用如此之大,售价如此之高?它到底集成了哪些技术?它到底是
    的头像 发表于 01-04 09:23 2913次阅读

    禾赛首款首款以高度命名的激光雷达 为什么要做的如此之

    约一半厚,从舱外到舱内,ET25 为什么要做的如此之薄呢?   薄,源于对安全和美观的双重需求 首先与大家分享一个关键的概念:KOZ。 所有集成于座舱上方的传感器,需要与挡风玻璃之间留有一定的空间,这一
    的头像 发表于 06-26 17:43 835次阅读
    禾赛首款首款以高度命名的激光雷达 为什么要做的<b class='flag-5'>如此之</b>薄

    为什么GPU对AI如此重要?

    GPU在人工智能中相当于稀土金属,甚至黄金,它们在当今生成式人工智能时代中的作用不可或缺。那么,为什么GPU在人工智能发展中如此重要呢?什么是GPU图形处理器(
    的头像 发表于 05-17 08:27 656次阅读
    为什么<b class='flag-5'>GPU</b>对AI<b class='flag-5'>如此</b>重要?

    谈谈GPU的使用寿命

    上文结合论文谈一谈,三年寿命GPU [上]说到,电路腐蚀导致橡树岭实验室的GPU寿命只有3年,更换了11,000块GPU
    的头像 发表于 11-01 10:27 178次阅读
    谈谈<b class='flag-5'>GPU</b>的使用<b class='flag-5'>寿命</b>