0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谈谈GPU的使用寿命

处理器与AI芯片 来源:处理器与AI芯片 2024-11-01 10:27 次阅读

上文结合论文谈一谈,三年寿命的GPU [上]说到,电路腐蚀导致橡树岭实验室的GPU寿命只有3年,更换了11,000块GPU。

早在2015年橡树岭实验室就发表了针对GPU Error的另一篇文章:

[194] Understanding GPU Errors Large-scale HPCSystem and the Implications for System Design and Operation.

194 表示引用数。

这篇文章总结了Titan GPU运行中出现的失败和教训。

虽然这篇文章发表于2015年,但是文章中图片的模糊程度像是1955年。

1 背景介绍

GPU的主要的存储部件,都使用了SECDEC ECC校验保护,包括:

device memory

l2/l1cache,instruction cache,data cache, share memory

register file

但是并不是GPU中所有的部件都能被ECC校验保护比如

logic

queue

thread block threaduler

warp scheduler

instruction dispatch unit

interconnect network

一旦一个部件发生错误,那么就可能影响多个线程。

文章总结了GPU经常出现的error以及其影响。

319ee51e-966d-11ef-a511-92fbcf53809c.png

上图中最上面两行的Single Bit Error和Double Bit Error后面会缩写为SBE和DBE。

Stability

首先他们发现GPU发生问题的频率较低,考虑到共计有18,688块GPU。

按照GPU的手册,这个数量的GPU,至少每天会发生两次failure,但是实际中,每两天发生一次。

他们也注意到,上图中的Off the bus, ECC page retirement error和DBE failure是主要导致GPU失败的问题。

31b38b04-966d-11ef-a511-92fbcf53809c.png

他们也注意到,一小部分的bad GPU重复的发生问题,是拉低MTBF(meantime between failure)的主要原因。

如果可以早发现,那么应当提升GPU稳定运行的时间。

Temporal Locality

研究人员发现,有显著的一部分GPU failure发生远早于MTFB。 这意味着GPU failure有很强的temporal locality。 如下图所示,并不是均匀分布。

31e1db3a-966d-11ef-a511-92fbcf53809c.png

Stressing Testing

研究人员发现,有6块GPU card造成了总体DBE error中的25%。 有一部分GPU可能会多次发生DBE和ECC page retirement问题,应当在早期发现这些GPU卡。 通过在进入生产环节之前,进行压力测试,可以有效避免类似问题。

Temperature

他们发现off the bus和DBE error是与温度有关,但并不是所有的问题都与温度有关。

31f9ff8a-966d-11ef-a511-92fbcf53809c.png

SBE

SBE (Single bit error), 他们发现98%的SBE问题只发生在10张卡上。

如下图x轴所示,10张卡占据了整体98%的SBE Error

320d59cc-966d-11ef-a511-92fbcf53809c.png

L2 Cache

899张有问题的卡中,如上文所述,10张卡贡献了SBE 98%的问题。

这10张卡发生SBE错误时,99%都发生在了L2 Cache上,如下图中间的图。蓝色代表L2Cache发生问题。

而对于其余发生问题,造成了2% SBE问题的卡,96%的问题都发生在了device memory上。

322bb5ca-966d-11ef-a511-92fbcf53809c.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 电路
    +关注

    关注

    172

    文章

    5962

    浏览量

    172795
  • 存储
    +关注

    关注

    13

    文章

    4353

    浏览量

    86107
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4768

    浏览量

    129265

原文标题:结合论文谈一谈,三年寿命的GPU [下]

文章出处:【微信号:处理器与AI芯片,微信公众号:处理器与AI芯片】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    等离子的使用寿命是多久?

    等离子的使用寿命是多久?       答: 等离子电视的使用寿命大约为6
    发表于 05-24 18:00

    电子产品使用寿命 元器件使用寿命 计算

    如题,如何去计算正要研发的一款产品的使用寿命,是不是应该从使用的电子元器件的使用寿命去整体权衡,有没有什么手册可以查询,或者有没有什么软件可以输入所使用的电子元器件,然后能计算出理论上这款产品的使用寿命
    发表于 06-06 16:26

    电子产品的使用寿命,电子元器件的使用寿命

    如题,如何去计算正要研发的一款产品的使用寿命,是不是应该从使用的电子元器件的使用寿命去整体权衡,有没有什么手册可以查询,或者有没有什么软件可以输入所使用的电子元器件,然后能计算出理论上这款产品的使用寿命
    发表于 06-06 16:28

    电力电容器的保养及使用寿命

    小库说:电力系统中的问题可不容小觑,日常小问题也不能忽视,今天来说一下 电力电容器的保养及使用寿命吧电力电容器保养得好,对其使用寿命的延长和电器的安全运行相当重要。如何对电力电容器进行维护保养
    发表于 03-22 14:44

    怎么延长电表使用寿命

    如何延长电表使用寿命是个问题?解决问题前,提醒下——请先不要像倒洗澡水一样丢弃电表! 全世界的电力公司利用智能电表和高级计量基础设施(AMI)实现远程抄表、远程连接/断开、需求/响应以及其他高效运营
    发表于 07-24 08:15

    温度探头的使用寿命

    专用的,平常的环境温度监控用这么高精度的温度传感器根本没有意义,杀鸡用了牛刀大材小用。因此温度传感器的高精度是相对于需求来讲的一个概念,原则是跟温度采集系统匹配就好。温度探头的使用寿命有两个决定因素
    发表于 02-21 11:30

    电阻负载使用寿命和危害

      一般来说,电阻的失效率相对性于别的元器件而言,是较为大低的,因此人们一般评定电阻的使用寿命较为少。可是在高压高溫的情况下会失效率升高,因此一些情景,人们還是必须细心评定电阻的使用寿命。  对电阻
    发表于 07-03 17:31

    如何延长蓄电池的使用寿命

    如何延长蓄电池的使用寿命
    发表于 06-18 06:03

    如何保证工业的使用寿命更长久

      所有东西都是有使用寿命的,只是时间长短不一样罢了。工业平板电脑也是一样,也有着一定的使用寿命,大概在8-10年,但这是正常老化的使用寿命。因为有很多的因素会影响着工业平板电脑的使用寿命
    发表于 11-04 16:37 767次阅读

    如何延长电池的使用寿命

    延长电池的使用寿命,认为应就以下几点引起维护人员的注意.
    发表于 01-23 14:59 5639次阅读

    如何延长锂离子电池的使用寿命

    有几种方法可以保持电池寿命(以充电/放电循环次数计)。换句话说,电池达到其使用寿命之前的使用寿命,而不是该循环充电的使用寿命
    的头像 发表于 03-10 17:25 3400次阅读

    电容器的使用寿命

    很多朋友购物最关心的是商品的使用寿命。世界上没有什么能长久,贴片电容也是如此。今天,小编将带你了解电容器的使用寿命。   标称最高温度85℃,在85℃环境温度下,使用寿命可达1000小时
    的头像 发表于 06-18 15:57 1w次阅读

    会缩短R型变压器使用寿命的注意事项

    任何东西都有它的使用寿命,R型变压器也是如此。虽然R型变压器在材料和设计上的使用寿命比普通变压器长,但一些不正确的使用会影响变压器的使用寿命。今天,让我们来谈谈哪些因素会缩短我们电源变
    的头像 发表于 12-26 12:10 725次阅读
    会缩短R型变压器<b class='flag-5'>使用寿命</b>的注意事项

    交叉导轨的使用寿命

    交叉导轨的使用寿命
    的头像 发表于 07-20 17:39 1040次阅读
    交叉导轨的<b class='flag-5'>使用寿命</b>

    固态电池使用寿命

    固态电池的使用寿命是一个受到多方因素影响的复杂问题,以下是对其使用寿命的详细分析:
    的头像 发表于 09-15 11:53 3309次阅读