0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Exaflop简史

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2022-08-03 09:54 次阅读

Exaflop 是衡量超级计算机性能的单位,表示该计算机每秒可至少进行百亿亿次浮点运算。

为了解决这个时代最复杂的问题,比如如何治疗像新冠肺炎和癌症这样的疾病、以及如何缓解气候变化等。计算机的计算量正在不断增加。

所有这些重大挑战将计算带入了现今的百亿亿次级时代,顶级性能通常以 exaflops 来衡量。

什么是 Exaflop?

Exaflop 是衡量超级计算机性能的单位,表示该计算机每秒可以至少进行 10^18 或百亿亿次浮点运算。

Exaflop 中的 exa-前缀表示“百亿亿”,即 10 亿乘以 10 亿或1的后面有 18 个零。同样,单个 exabyte 的内存子系统可以储存百亿亿字节的数据。

exaflop 中的“flop”是浮点运算的缩写。exaflop/s 是表示系统每秒浮点运算次数的单位。

浮点是指所有数字都用小数点表示的计算方法。

1000 Petaflop = 1 Exaflop

前缀 peta- 表示 10^15,即 1 的后面有 15 个零。因此 1 exaflop 等于 1000 petaflop。

c4a277d0-1263-11ed-ba43-dac502259ad0.png

1 exaflop 的计算量到底有多大?相当于十亿人中的每个人都拿着十亿个计算器。

如果他们同时按下等号,就是进行了 1 个 exaflop。

拥有 Big Red 200 和其他几台超级计算机的印第安纳大学表示,exaflop 计算机的速度相当于一个人每秒钟进行一次计算,并一直计算 31,688,765,000 年。

Exaflop 简史

在超级计算发展史的大部分时间里,一次浮点运算就是一次,但随着工作负载引入 AI ,这种情况也发生了变化。

人们开始使用最高的精度格式来表示数字,这种格式被称为双精度,由 IEEE 浮点运算标准定义。它之所以被称为双精度或 FP64,是因为计算中的每个数字都需要以 64 位用 0 或 1 表示的数据块表示,而单精度为 32 位。

双精度使用 64 位确保每个数字都精确到很细微的部分,比如 1.0001 + 1.0001 = 2.0002,而不是 1 + 1 = 2。

这种格式非常适合当时的大部分工作负载,比如从原子到飞机等全部需要确保模拟结果接近于真实的模拟。

因此,当 1993 年全球最强大的超级计算机榜单 TOP500 首次发布时,衡量 FP64 数学性能的 LINPACK 基准(又称HPL)自然成为了默认的衡量标准。

AI 大爆炸

十年前,计算行业发生了 NVIDIA 首席执行官黄仁勋所说的 AI 大爆炸。

这种强大的新计算形式开始在科学和商业应用上展现出重大成果,而且它运用了一些非常不同的数学方法。

深度学习并不是模拟真实世界中的物体,而是在堆积如山的数据中筛选,以找到能够带来新洞察的模式。

这种数学方法需要很高的吞吐量,所以用经过简化的数字(比如使用 1.01 而不是 1.0001)进行大量计算要比用更复杂的数字进行少量计算好得多。

因此 AI 使用 FP32、FP16 和 FP8 等低精度格式,通过 32 位、16 位和 8 位数让用户更快地进行更多计算。

混合精度不断发展

AI 使用 64 位数就如同在周末外出时带着整个衣柜。

研究人员一直在积极地为 AI 寻找理想的低精度技术。

例如首个 NVIDIA Tensor Core GPU——Volta,它使用了混合精度,并以 FP16 格式执行矩阵乘法,然后用 FP32 累积结果以获得更高的精度。

Hopper 通过 FP8 加速

最近,NVIDIA Hopper 架构首次发布了速度更快的低精度 AI 训练方法。Hopper Transformer Engine 能够自动分析工作负载,尽可能采用 FP8 并以 FP32 累积结果。

在进行计算密集度较低的推理工作,比如在生产中运行 AI 模型时,TensorFlow 和 PyTorch 等主要框架通过支持 8 位整数实现快速性能,因为这样就不需要使用小数点来完成工作。

好消息是,NVIDIA GPU 支持上述所有精度格式,因此用户可以实现每个工作负载的最优加速。

去年,IEEE P3109 委员会开始为机器学习中使用的精度格式制定行业标准。这项工作可能还需要一到两年的时间才能完成。

一些模拟软件在低精度工作中大放异彩

虽然 FP64 在模拟工作中仍然很受欢迎,但当低精度数学能够更快提供可用结果时,许多人会使用后者。

c4d88d16-1263-11ed-ba43-dac502259ad0.png

影响 HPC 应用程序性能的因素各不相同

例如,研究人员用 FP32 运行广受欢迎的汽车碰撞模拟器——Ansys LS-Dyna。基因组学也倾向于使用低精度数学。

此外,许多传统的模拟开始在部分工作流程中采用 AI。随着越来越多的工作负载使用 AI,超级计算机需要支持较低的精度才能有效运行这些新兴应用。

基准与工作负载同步发展

在认识到这些变化后,包括 Jack Dongarra(2021 年图灵奖得主和 HPL 的贡献者)在内的研究人员在 2019 年首次发布了 HPL-AI,这项新基准更适合测量新的工作负载。

Dongarra 在 2019 年的博客中表示:“无论是技术不断优化的传统模拟,还是 AI 应用,混合精度技术对于提高超级计算机的计算效率越来越重要。正如 HPL 实现了对双精度能力的基准测试一样,这种基于 HPL 的新方法可以对超级计算机的混合精度能力进行大规模基准测试。”

尤利希超级计算中心主任 Thomas Lippert 同意了这一观点。

他在去年发表的一篇博客中表示:“我们使用 HPL-AI 基准是因为它既能够准确地衡量日益增加的 AI 和科学工作负载中的混合精度工作,也能反映准确的 64 位浮点计算结果。”

现今的 Exaflop 系统

在 6 月的一份报告中,全球 20 个超级计算机中心提交了 HPL-AI 结果,其中有三个中心提供了超过 1 exaflop 的性能。

在这些系统中,橡树岭国家实验室的超级计算机在 HPL 上的 FP64 性能也超过了 1 exaflop。

c517a064-1263-11ed-ba43-dac502259ad0.png

2022 年 6 月 HPL-AI 结果的采样器

两年前,一非传统系统首次达到 1 exaflop。这台由 Folding@home 联盟组装的众源超级计算机在呼吁帮助抵御新冠疫情后,达到了这一里程碑,到现在已有超过 100 万台计算机加入其中。

理论和实践中的Exaflop

许多组织从那时起就已开始安装理论峰值性能超过 1 exaflop 的超级计算机。需要注意的是,TOP500 榜单同时发布 Rmax(实际)和 Rpeak(理论)分数。

Rmax 指计算机实际表现出的最佳性能。

Rpeak 是一切系统都处于高水平运行时的最高理论性能,而这几乎从未发生过。该数值的计算方法通常是将系统中的处理器数量乘以其时钟速度,然后再将结果乘以处理器在一秒钟内可执行的浮点运算数。

因此,如果有人说他们的系统达到 1 exaflop,请询问他说的是 Rmax(实际)还是Rpeak(理论)。

Exaflop 时代的众多指标

这也是新百亿亿次时代的众多细微变化之一。

值得注意的是,HPL 和 HPL-AI 属于合成基准,即它们衡量的是数学程序的性能,而不是真实世界的应用。MLPerf 等其他基准则基于真实世界中的工作负载。

最后,衡量系统性能的最佳标准当然是它运行用户应用程序的情况。该衡量标准不是基于 exaflop,而是基于投资回报率。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5087

    浏览量

    103924
  • 计算机
    +关注

    关注

    19

    文章

    7553

    浏览量

    88799
  • AI
    AI
    +关注

    关注

    87

    文章

    31845

    浏览量

    270677

原文标题:什么是 Exaflop?

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    余承东疑再次喊话比亚迪,高阶智驾如何界定?

    电子发烧友网报道(文 / 吴子鹏) 近日,比亚迪在智能化战略发布会上宣布全系搭载 “天神之眼” 高阶智驾系统,这一举措大幅降低了高阶智驾的价格门槛。就连起售价不到 7 万元的入门车型海鸥,也配备了高阶智驾系统,比亚迪此举无疑让更多消费者能够享受到高阶智驾的便利,真正实现了高阶智驾的 “平民化”。   然而,比亚迪的这一战略调整,让一直以高阶智驾赋能车企的华为,在舆论层面面临一些挑战。在比亚迪发布会之后,华为常务董事
    的头像 发表于 02-17 01:19 73次阅读

    TOP500第二台E级超算出现,AMD要在HPC上逆袭英特尔?

    Exaflop/s的HPL算力成绩,在开发人员的优化下,相较上次提交的1.194 Exflop/s成绩还有所提升。Frontier集成
    的头像 发表于 05-15 09:11 2516次阅读
    TOP500第二台E级超算出现,AMD要在HPC上逆袭英特尔?

    三星S25 Ultra S Pen蓝牙被砍,Qi2磁吸技术惹的祸?

    (电子发烧友网综合报道)在科技的浪潮中,每一次选择都可能预示着一场变革。近日,三星在智能手机Galaxy S25 Ultra中,对S Pen(触控笔)进行了一项显著的调整——放弃了与蓝牙的连接功能。消息一出在业界引起了广泛的关注和讨论。   三星的SPen自问世以来,便以其创新的设计和便捷的功能赢得了众多用户的喜爱。SPen不仅提升了用户的书写体验,还通过集成蓝牙功能实现了远程控制等高级功能。三星的S Pen一直是其智能手机产品线的一大特色,尤其
    发表于 02-17 00:18 44次阅读

    豪威发布新款1200万像素汽车CMOS,赋能ADAS和机器视觉

    电子发烧友原创 章鹰 车载800万摄像头目前已经成为智驾行业炙手可热的标配。2月10日,在比亚迪智能化战略发布会上,比亚迪推出了天神之眼整套技术方案,天神之眼A-高阶智驾三激光版(DiPilot 600)、天神之眼B-高阶智驾激光版(DiPilot 300)、天神之眼C-入门级智驾三目版。其中在10万到20万元车型搭载的天使之眼C方案中,搭载了比亚迪自研的由双800万像素广角和单800万像素长焦组成的三目前视摄像,这为全球独创。 作为自动驾驶摄像头中的传感器之一
    的头像 发表于 02-17 00:16 173次阅读
    豪威发布新款1200万像素汽车CMOS,赋能ADAS和机器视觉

    英飞凌IGBT7系列芯片大解析

    上回书(英飞凌芯片简史)说到,IGBT自面世以来,历经数代技术更迭,标志性的技术包括平面栅+NPT结构的IGBT2,沟槽栅+场截止结构的IGBT3和IGBT4,表面覆铜及铜绑定线的IGBT5等。现今
    的头像 发表于 01-15 18:05 415次阅读
    英飞凌IGBT7系列芯片大解析

    安森美(onsemi)的超声波传感器解决方案的未来趋势和创新

    简要介绍超声波传感器的发展历程,并结合当前和未来的应用,预测未来几年超声波传感器的应用领域。      汽车超声波传感器简史 超声波技术常用于检测物体和发现固体材料中的缺陷,其首项专利可以追溯到上世纪30年代。一直
    的头像 发表于 11-23 14:53 1161次阅读

    名单公布!【书籍评测活动NO.50】亲历芯片产线,轻松图解芯片制造,揭秘芯片工厂的秘密

    的知识门槛低,又独家揭秘了芯片制造工厂的运营到管理,适用于更大读者群。本书非常适合对芯片这个话题(不管是技术还是产业运营等)感兴趣的IC从业者和大众读者。 相信阅读过《芯路》《半导体简史》《图解
    发表于 11-04 15:38

    【「ARM MCU嵌入式开发 | 基于国产GD32F10x芯片」阅读体验】+书籍整体概况

    系统的概念,ARM简史,以及前期的准备工作,视频时长112min。 第二章介绍GD32F10x的架构,包含计算机架构,Cortex-M3架构;第三章通用输入/输出端口GPIO介绍,内容非常丰富,介绍
    发表于 08-25 22:48

    Perforce静态代码分析专家解读MISRA C++:2023®新标准:如何安全、高效地使用基于范围的for循环,防范未定义行

    Frank van den Beuken博士的博客系列,本期为第三篇。 在前两篇系列文章中,我们向您介绍了 新的MISRA C++ 标准 和 C++简史 。本文,我们将仔细研究C++中以for循环为中心
    的头像 发表于 06-18 12:57 514次阅读

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    72个 NVLink 连接的Blackwell GPU 和 30TB 的统一内存,在130TB/s 的计算结构上运行,GB200 NVL72 在单个机架中创造了一个exaFLOP 级别的 AI 超级
    发表于 05-13 17:16

    宽带上网技术简史(2024版)

    在如今这个数字时代,宽带已经成为我们每个人、每个家庭的生活必需品。如果没有它,我们会坐立难安、心绪不宁。那么,你知道宽带背后的技术原理吗?从最早期的56k“猫”拨号,到现在的千兆城市、千兆家庭,我们的宽带技术到底经历了怎样的变革?今天这篇文章,我们就来详细了解一下——“宽带的故事”。█xDSL和ISDN下面这个界面,你见过吗?我相信很多70后80后的小伙伴,
    的头像 发表于 04-20 08:05 1059次阅读
    宽带上网技术<b class='flag-5'>简史</b>(2024版)

    算力简史,是一段波澜壮阔的历史

    今天这篇文章,我将给大家详细介绍一下人类算力的演进过程。这是一段波澜壮阔的历史,值得我们驻足与回忆。Chrent人工算力时代人类对算力的利用,从远古时期就已经开始了。大脑,是我们最原生的算力工具。依靠大脑所提供的算力,我们才得以生存。动物也有大脑,也有算力,但是远远不如人类强劲。在漫长的进化过程中,人类的大脑越来越发达,最终帮助自己从万物生灵中脱颖而出,成为
    的头像 发表于 04-04 08:26 764次阅读
    算力<b class='flag-5'>简史</b>,是一段波澜壮阔的历史

    什么是SaaS?中国SaaS发展简史

    SaaS融合了软件与云计算的优势,在这种服务模式下,用户不仅获得了软件的功能,更重要的是,用户拥有数据与隐私权。
    发表于 03-14 11:30 847次阅读
    什么是SaaS?中国SaaS发展<b class='flag-5'>简史</b>

    单片机发展简史

    单片机出现的历史并不长,但发展十分迅猛。它的产生与发展和微处理器(CPU)的产生与发展大体同步,自1971年美国英特尔公司首先推出4位微处理器以来,它的发展到目前为止大致可分为5个阶段。
    发表于 03-14 11:22 1477次阅读

    全球AGV发展简史

    AGV(自动引导车)是一种自动化材料搬运机器人,自上世纪50年代发展至今,应用范围不断扩大,已广泛应用于制造、仓库、医院和机场等领域。现代AGV具备更高安全性和承载能力,可运输更多种物品,并可通过与云计算和大数据分析结合实现更智能的自动化控制。未来,AGV技术将持续改进和完善,成为制造业和物流业智能化发展的重要力量。
    的头像 发表于 02-27 18:20 1364次阅读