0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Exaflop简史

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2022-08-03 09:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Exaflop 是衡量超级计算机性能的单位,表示该计算机每秒可至少进行百亿亿次浮点运算。

为了解决这个时代最复杂的问题,比如如何治疗像新冠肺炎和癌症这样的疾病、以及如何缓解气候变化等。计算机的计算量正在不断增加。

所有这些重大挑战将计算带入了现今的百亿亿次级时代,顶级性能通常以 exaflops 来衡量。

什么是 Exaflop?

Exaflop 是衡量超级计算机性能的单位,表示该计算机每秒可以至少进行 10^18 或百亿亿次浮点运算。

Exaflop 中的 exa-前缀表示“百亿亿”,即 10 亿乘以 10 亿或1的后面有 18 个零。同样,单个 exabyte 的内存子系统可以储存百亿亿字节的数据。

exaflop 中的“flop”是浮点运算的缩写。exaflop/s 是表示系统每秒浮点运算次数的单位。

浮点是指所有数字都用小数点表示的计算方法。

1000 Petaflop = 1 Exaflop

前缀 peta- 表示 10^15,即 1 的后面有 15 个零。因此 1 exaflop 等于 1000 petaflop。

c4a277d0-1263-11ed-ba43-dac502259ad0.png

1 exaflop 的计算量到底有多大?相当于十亿人中的每个人都拿着十亿个计算器。

如果他们同时按下等号,就是进行了 1 个 exaflop。

拥有 Big Red 200 和其他几台超级计算机的印第安纳大学表示,exaflop 计算机的速度相当于一个人每秒钟进行一次计算,并一直计算 31,688,765,000 年。

Exaflop 简史

在超级计算发展史的大部分时间里,一次浮点运算就是一次,但随着工作负载引入 AI ,这种情况也发生了变化。

人们开始使用最高的精度格式来表示数字,这种格式被称为双精度,由 IEEE 浮点运算标准定义。它之所以被称为双精度或 FP64,是因为计算中的每个数字都需要以 64 位用 0 或 1 表示的数据块表示,而单精度为 32 位。

双精度使用 64 位确保每个数字都精确到很细微的部分,比如 1.0001 + 1.0001 = 2.0002,而不是 1 + 1 = 2。

这种格式非常适合当时的大部分工作负载,比如从原子到飞机等全部需要确保模拟结果接近于真实的模拟。

因此,当 1993 年全球最强大的超级计算机榜单 TOP500 首次发布时,衡量 FP64 数学性能的 LINPACK 基准(又称HPL)自然成为了默认的衡量标准。

AI 大爆炸

十年前,计算行业发生了 NVIDIA 首席执行官黄仁勋所说的 AI 大爆炸。

这种强大的新计算形式开始在科学和商业应用上展现出重大成果,而且它运用了一些非常不同的数学方法。

深度学习并不是模拟真实世界中的物体,而是在堆积如山的数据中筛选,以找到能够带来新洞察的模式。

这种数学方法需要很高的吞吐量,所以用经过简化的数字(比如使用 1.01 而不是 1.0001)进行大量计算要比用更复杂的数字进行少量计算好得多。

因此 AI 使用 FP32、FP16 和 FP8 等低精度格式,通过 32 位、16 位和 8 位数让用户更快地进行更多计算。

混合精度不断发展

AI 使用 64 位数就如同在周末外出时带着整个衣柜。

研究人员一直在积极地为 AI 寻找理想的低精度技术。

例如首个 NVIDIA Tensor Core GPU——Volta,它使用了混合精度,并以 FP16 格式执行矩阵乘法,然后用 FP32 累积结果以获得更高的精度。

Hopper 通过 FP8 加速

最近,NVIDIA Hopper 架构首次发布了速度更快的低精度 AI 训练方法。Hopper Transformer Engine 能够自动分析工作负载,尽可能采用 FP8 并以 FP32 累积结果。

在进行计算密集度较低的推理工作,比如在生产中运行 AI 模型时,TensorFlow 和 PyTorch 等主要框架通过支持 8 位整数实现快速性能,因为这样就不需要使用小数点来完成工作。

好消息是,NVIDIA GPU 支持上述所有精度格式,因此用户可以实现每个工作负载的最优加速。

去年,IEEE P3109 委员会开始为机器学习中使用的精度格式制定行业标准。这项工作可能还需要一到两年的时间才能完成。

一些模拟软件在低精度工作中大放异彩

虽然 FP64 在模拟工作中仍然很受欢迎,但当低精度数学能够更快提供可用结果时,许多人会使用后者。

c4d88d16-1263-11ed-ba43-dac502259ad0.png

影响 HPC 应用程序性能的因素各不相同

例如,研究人员用 FP32 运行广受欢迎的汽车碰撞模拟器——Ansys LS-Dyna。基因组学也倾向于使用低精度数学。

此外,许多传统的模拟开始在部分工作流程中采用 AI。随着越来越多的工作负载使用 AI,超级计算机需要支持较低的精度才能有效运行这些新兴应用。

基准与工作负载同步发展

在认识到这些变化后,包括 Jack Dongarra(2021 年图灵奖得主和 HPL 的贡献者)在内的研究人员在 2019 年首次发布了 HPL-AI,这项新基准更适合测量新的工作负载。

Dongarra 在 2019 年的博客中表示:“无论是技术不断优化的传统模拟,还是 AI 应用,混合精度技术对于提高超级计算机的计算效率越来越重要。正如 HPL 实现了对双精度能力的基准测试一样,这种基于 HPL 的新方法可以对超级计算机的混合精度能力进行大规模基准测试。”

尤利希超级计算中心主任 Thomas Lippert 同意了这一观点。

他在去年发表的一篇博客中表示:“我们使用 HPL-AI 基准是因为它既能够准确地衡量日益增加的 AI 和科学工作负载中的混合精度工作,也能反映准确的 64 位浮点计算结果。”

现今的 Exaflop 系统

在 6 月的一份报告中,全球 20 个超级计算机中心提交了 HPL-AI 结果,其中有三个中心提供了超过 1 exaflop 的性能。

在这些系统中,橡树岭国家实验室的超级计算机在 HPL 上的 FP64 性能也超过了 1 exaflop。

c517a064-1263-11ed-ba43-dac502259ad0.png

2022 年 6 月 HPL-AI 结果的采样器

两年前,一非传统系统首次达到 1 exaflop。这台由 Folding@home 联盟组装的众源超级计算机在呼吁帮助抵御新冠疫情后,达到了这一里程碑,到现在已有超过 100 万台计算机加入其中。

理论和实践中的Exaflop

许多组织从那时起就已开始安装理论峰值性能超过 1 exaflop 的超级计算机。需要注意的是,TOP500 榜单同时发布 Rmax(实际)和 Rpeak(理论)分数。

Rmax 指计算机实际表现出的最佳性能。

Rpeak 是一切系统都处于高水平运行时的最高理论性能,而这几乎从未发生过。该数值的计算方法通常是将系统中的处理器数量乘以其时钟速度,然后再将结果乘以处理器在一秒钟内可执行的浮点运算数。

因此,如果有人说他们的系统达到 1 exaflop,请询问他说的是 Rmax(实际)还是Rpeak(理论)。

Exaflop 时代的众多指标

这也是新百亿亿次时代的众多细微变化之一。

值得注意的是,HPL 和 HPL-AI 属于合成基准,即它们衡量的是数学程序的性能,而不是真实世界的应用。MLPerf 等其他基准则基于真实世界中的工作负载。

最后,衡量系统性能的最佳标准当然是它运行用户应用程序的情况。该衡量标准不是基于 exaflop,而是基于投资回报率。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5696

    浏览量

    110127
  • 计算机
    +关注

    关注

    19

    文章

    7841

    浏览量

    93476
  • AI
    AI
    +关注

    关注

    91

    文章

    41293

    浏览量

    302659

原文标题:什么是 Exaflop?

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    富士通发布FY2025财报 调整后营业利润3,905亿日元,同比增长27.1%

    富士通于4月28日发布了FY2025财报。根据财报显示,调整后的FY2025合并营收为35,029亿日元,在业务结构持续调整的背景下保持总体稳定;调整后营业利润达到3,905亿日元,同比增长27.1%,实现连续第四年创历史新高,盈利能力与现金创造能力同步提升。 富士通主营业务中,服务解决方案(Service Solution)业务营收23,469亿日元,同比增长4.5%,调整后营业利润提升至3,614亿日元,利润率达到15.4%,继续成为增长引擎。 其中,Uvance业务增长显著,全年营收7,093亿日
    的头像 发表于 04-30 18:38 113次阅读

    有人AI算力主机 | 多源数据,AI分析,边缘智理

    工业物联网向边缘智能深度演进,机器视觉图像、设备时序传感、环境感知传感、多源融合数据的边缘端实时AI 分析,成为工业智能化升级的核心抓手。 有人物联 AI 算力主机 (EG9 系列、EG628-S/EG828-S、SH800/SH900 等)精准聚焦工业四大核心数据类型的边缘 AI 分析需求,搭载 6~20Tops 高性能 NPU,内置 WukongEdge 边缘物控系统,融合 AI 推理、多协议数采、边缘组态、异地组网等核心功能,以工业级硬件设计,为 工业制造、新能源、智慧交通、智慧矿山、智慧水
    的头像 发表于 04-30 18:11 124次阅读
    有人AI算力主机 | 多源数据,AI分析,边缘智理

    固态电池量产窗口期的双重质量挑战怎么破?

    在新能源动力电池技术迭代的浪潮中,固态电池凭借其以固态电解质替代传统锂电池液态电解液与隔膜的核心优势,成为下一代高安全、高能量密度动力电池的核心发展方向。从行业推进节奏来看,固态电池正进入“从实验室到产业化”的关键窗口期:产业普遍沿着“半固态→准固态→全固态”逐步推进,半固态已开始走向更大规模的装车与验证,全固态也在加速中试与电芯验证、量产线建设。 固态电池的工艺逻辑升级之路 与传统锂电池相比,固态电
    的头像 发表于 04-30 18:08 159次阅读
    固态电池量产窗口期的双重质量挑战怎么破?

    有人工控机|全场景赋能工业机器人,打造高效智能解决方案

    随着工业 4.0 的深入推进,工业机器人在仓储物流、智能制造、户外巡检、民生服务等领域的应用愈发广泛,对核心控制硬件的工业级稳定性、高性能算力、丰富拓展接口、灵活开发性提出了更高要求。有人技术深耕工业通信与嵌入式硬件领域,推出多款适配机器人场景的工控机 / 工控板产品,覆盖 ARM、X86 等架构,兼具工业级宽温、高隔离、高集成、易开发等特性,可完美匹配 AGV、机器狗、工业机械臂、服务机器人等各类机器人的控制需求,为机器人
    的头像 发表于 04-30 18:07 127次阅读
    有人工控机|全场景赋能工业机器人,打造高效智能解决方案

    阿里消息:平头哥发布智能网卡“磐脉920”;QoderWake发布

    平头哥发布首款智能网卡“磐脉920”。 千问升级图片翻译,支持119种语言“图翻图”。 QoderWake发布,Qoder移动端上线。  1;平头哥发布智能网卡“磐脉920” 4月28日,平头哥发布旗下首款智能网卡“磐脉920”,这是国内首个内置PCIe Switch的400G智能网卡,最大支持400Gbps吞吐带宽,可应用于万卡智算集群、通算集群和高性能存储等场景。目前,磐脉920已量产,将首先在阿里云数据中心部署。 2、   千问升级图片翻译 支持119种语言“图翻图”  4月29日,千问
    的头像 发表于 04-30 18:05 209次阅读
    阿里消息:平头哥发布智能网卡“磐脉920”;QoderWake发布

    5个理由让你选择ZEISS ScanBox

    在工业制造领域,质量控制是保障生产效率、降低成本、提升产品核心竞争力的关键环节。无论是汽车行业的完整车身与零部件检测、航空航天领域的精密构件测量,还是通用制造中的小型复杂零件校验,都亟需一款能 兼顾自动化、高精度与便捷性的一体化解决方案 , ZEISS ScanBox自动化三维测量机便应运而生,精准匹配各行业用户的核心需求。 作为生产和制造过程高效质量控制的一体化解决方案,ZEISS ScanBox可全面覆盖从微小锁钩、螺栓、螺纹到大型完整
    的头像 发表于 04-30 18:00 142次阅读
    5个理由让你选择ZEISS ScanBox

    双运放 + 3–36V 宽压!WD358A:工业传感器信号调理优选方案

    WD358A 是低功耗双通道通用运算放大器,内置两路独立高增益运放,支持 3V–36V 单电源或 ±1.5V–±18V 双电源供电,输入共模范围包含地电位。芯片具备低失调电压、低偏置电流、100dB 高增益及优异抑制比,内部频率补偿保证稳定工作,提供 DIP-8/SOIC-8/TSSOP-8 多封装,兼容行业标准 358。广泛用于传感器调理、电源反馈、电池设
    的头像 发表于 04-30 18:00 100次阅读
    双运放 + 3–36V 宽压!WD358A:工业传感器信号调理优选方案

    量产良率99.5%!电动工具无刷电机驱动方案,拒绝批量翻车

    其利天下聚焦电动工具无刷驱动场景打造专业解决方案,以KY32DS024高性能32位MCU为核心控制芯片,凭借高集成一体化设计、量产级优化逻辑、全场景可靠保护,实现量产良率稳定99.5%,从芯片底层到方案落地全链路规避批量故障,彻底解决电动工具无刷驱动量产难题。
    的头像 发表于 04-30 18:00 100次阅读
    量产良率99.5%!电动工具无刷电机驱动方案,拒绝批量翻车

    敦泰电子亮相2026北京国际汽车展览会

    4月24日至5月3日,2026北京国际汽车展览会盛大举办。全球领先的人机界面芯片厂商敦泰电子携完整的车规级显示&触控芯片方案亮相本届车展,以领先方案为智能座舱的屏幕创新提供芯片级的技术赋能。
    的头像 发表于 04-30 17:57 207次阅读

    海康威视亮相2026中国石油流通行业数智化发展大会

    4月27日,由中国石油流通协会主办的中国石油流通行业数智化发展大会暨第三届理事会第二次会议在河南洛阳召开。海康威视受邀参会,并在“数智化专业委员会分论坛”上发表了题为《多维智能感知赋能成品油行业场景数字化应用》的主题演讲。会上深入阐述了海康威视如何通过物联感知技术与人工智能的深度融合,为成品油流通全链条提供数字化解决方案,助力行业实现安全、高效、绿色发展。
    的头像 发表于 04-30 17:54 210次阅读

    嵌入式开发工具的现状和发展简史

    集成开发环境(IDE)正在经历深刻变革。传统意义上披着“图形界面”外衣的编译器,已不再能满足当今的需求。随着嵌入式系统变得越来越强大,而且AI开始融入几乎所有设计中,开发者需要的是能够理解开发者工作内容的开发环境。新一代IDE应能帮助驾驭复杂性,强化安全性,并让软件开发工作更加轻松愉悦。
    的头像 发表于 11-11 09:49 1487次阅读

    一文读懂京东技术发展简史

    文章目录 前言 京东发展历程 京东商城技术的演进 京东自研技术 京东前端框架Nerv 京东后端架构 京东的服务框架 分布式数据库StarDB 京东云 移动端 Flutter在京东的实践 大数据 咚咚架构 ShardingSphere 京东人物谱 参考 “京东可以高速发展到今天的规模的原因,其中最核心的是坚持“倒三角”战略:建立出色的团队;打造财务、物流和技术三大核心系统;降低成本、提升效率;为用户带来最佳体验。在《京东技术解密》一书中,大家会看到技术驱动的力量,
    的头像 发表于 11-10 13:53 1209次阅读

    物联网20年简史

    二十年前, “万物互联” 还只是一个概念。 二十年后,它已深入能源、制造、交通、医疗、农业等每一个行业的神经末梢。 物联网(IoT)不再是“未来”,而是工业世界的“底座”。 今天,就让我们一起穿越时间的浪潮,回望物联网的二十年演变之路。 一、2005-2010:概念萌芽期 关键词:传感器网络、RFID、M2M 这五年,是“物联网”被正式提出的阶段。2005年,**国际电信联盟(ITU)**首次提出“IoT”概念,标志着万物互联的构想进入公众视野。 当时的
    的头像 发表于 10-28 11:36 759次阅读
    物联网20年<b class='flag-5'>简史</b>

    人形机器人进化简史

    最近火爆全网的机器人格斗直播,尽管有很多瑕疵,赛博朋克感依然让人惊呼科幻走入现实。
    的头像 发表于 07-18 14:58 2038次阅读

    《电子发烧友电子设计周报》聚焦硬科技领域核心价值 第13期:2025.05.26--2025.05.30

    标准简史; IEEE Std 802.3df 和 IEEE P802.3dj 标准的更新; 助力下一代超大规模数据中心; 3、前沿技术公开课--知存科技+知名高校教授打造存内计算系列课程 (值得
    发表于 05-30 19:39