0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Exaflop简史

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2022-08-03 09:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Exaflop 是衡量超级计算机性能的单位,表示该计算机每秒可至少进行百亿亿次浮点运算。

为了解决这个时代最复杂的问题,比如如何治疗像新冠肺炎和癌症这样的疾病、以及如何缓解气候变化等。计算机的计算量正在不断增加。

所有这些重大挑战将计算带入了现今的百亿亿次级时代,顶级性能通常以 exaflops 来衡量。

什么是 Exaflop?

Exaflop 是衡量超级计算机性能的单位,表示该计算机每秒可以至少进行 10^18 或百亿亿次浮点运算。

Exaflop 中的 exa-前缀表示“百亿亿”,即 10 亿乘以 10 亿或1的后面有 18 个零。同样,单个 exabyte 的内存子系统可以储存百亿亿字节的数据。

exaflop 中的“flop”是浮点运算的缩写。exaflop/s 是表示系统每秒浮点运算次数的单位。

浮点是指所有数字都用小数点表示的计算方法。

1000 Petaflop = 1 Exaflop

前缀 peta- 表示 10^15,即 1 的后面有 15 个零。因此 1 exaflop 等于 1000 petaflop。

c4a277d0-1263-11ed-ba43-dac502259ad0.png

1 exaflop 的计算量到底有多大?相当于十亿人中的每个人都拿着十亿个计算器。

如果他们同时按下等号,就是进行了 1 个 exaflop。

拥有 Big Red 200 和其他几台超级计算机的印第安纳大学表示,exaflop 计算机的速度相当于一个人每秒钟进行一次计算,并一直计算 31,688,765,000 年。

Exaflop 简史

在超级计算发展史的大部分时间里,一次浮点运算就是一次,但随着工作负载引入 AI ,这种情况也发生了变化。

人们开始使用最高的精度格式来表示数字,这种格式被称为双精度,由 IEEE 浮点运算标准定义。它之所以被称为双精度或 FP64,是因为计算中的每个数字都需要以 64 位用 0 或 1 表示的数据块表示,而单精度为 32 位。

双精度使用 64 位确保每个数字都精确到很细微的部分,比如 1.0001 + 1.0001 = 2.0002,而不是 1 + 1 = 2。

这种格式非常适合当时的大部分工作负载,比如从原子到飞机等全部需要确保模拟结果接近于真实的模拟。

因此,当 1993 年全球最强大的超级计算机榜单 TOP500 首次发布时,衡量 FP64 数学性能的 LINPACK 基准(又称HPL)自然成为了默认的衡量标准。

AI 大爆炸

十年前,计算行业发生了 NVIDIA 首席执行官黄仁勋所说的 AI 大爆炸。

这种强大的新计算形式开始在科学和商业应用上展现出重大成果,而且它运用了一些非常不同的数学方法。

深度学习并不是模拟真实世界中的物体,而是在堆积如山的数据中筛选,以找到能够带来新洞察的模式。

这种数学方法需要很高的吞吐量,所以用经过简化的数字(比如使用 1.01 而不是 1.0001)进行大量计算要比用更复杂的数字进行少量计算好得多。

因此 AI 使用 FP32、FP16 和 FP8 等低精度格式,通过 32 位、16 位和 8 位数让用户更快地进行更多计算。

混合精度不断发展

AI 使用 64 位数就如同在周末外出时带着整个衣柜。

研究人员一直在积极地为 AI 寻找理想的低精度技术。

例如首个 NVIDIA Tensor Core GPU——Volta,它使用了混合精度,并以 FP16 格式执行矩阵乘法,然后用 FP32 累积结果以获得更高的精度。

Hopper 通过 FP8 加速

最近,NVIDIA Hopper 架构首次发布了速度更快的低精度 AI 训练方法。Hopper Transformer Engine 能够自动分析工作负载,尽可能采用 FP8 并以 FP32 累积结果。

在进行计算密集度较低的推理工作,比如在生产中运行 AI 模型时,TensorFlow 和 PyTorch 等主要框架通过支持 8 位整数实现快速性能,因为这样就不需要使用小数点来完成工作。

好消息是,NVIDIA GPU 支持上述所有精度格式,因此用户可以实现每个工作负载的最优加速。

去年,IEEE P3109 委员会开始为机器学习中使用的精度格式制定行业标准。这项工作可能还需要一到两年的时间才能完成。

一些模拟软件在低精度工作中大放异彩

虽然 FP64 在模拟工作中仍然很受欢迎,但当低精度数学能够更快提供可用结果时,许多人会使用后者。

c4d88d16-1263-11ed-ba43-dac502259ad0.png

影响 HPC 应用程序性能的因素各不相同

例如,研究人员用 FP32 运行广受欢迎的汽车碰撞模拟器——Ansys LS-Dyna。基因组学也倾向于使用低精度数学。

此外,许多传统的模拟开始在部分工作流程中采用 AI。随着越来越多的工作负载使用 AI,超级计算机需要支持较低的精度才能有效运行这些新兴应用。

基准与工作负载同步发展

在认识到这些变化后,包括 Jack Dongarra(2021 年图灵奖得主和 HPL 的贡献者)在内的研究人员在 2019 年首次发布了 HPL-AI,这项新基准更适合测量新的工作负载。

Dongarra 在 2019 年的博客中表示:“无论是技术不断优化的传统模拟,还是 AI 应用,混合精度技术对于提高超级计算机的计算效率越来越重要。正如 HPL 实现了对双精度能力的基准测试一样,这种基于 HPL 的新方法可以对超级计算机的混合精度能力进行大规模基准测试。”

尤利希超级计算中心主任 Thomas Lippert 同意了这一观点。

他在去年发表的一篇博客中表示:“我们使用 HPL-AI 基准是因为它既能够准确地衡量日益增加的 AI 和科学工作负载中的混合精度工作,也能反映准确的 64 位浮点计算结果。”

现今的 Exaflop 系统

在 6 月的一份报告中,全球 20 个超级计算机中心提交了 HPL-AI 结果,其中有三个中心提供了超过 1 exaflop 的性能。

在这些系统中,橡树岭国家实验室的超级计算机在 HPL 上的 FP64 性能也超过了 1 exaflop。

c517a064-1263-11ed-ba43-dac502259ad0.png

2022 年 6 月 HPL-AI 结果的采样器

两年前,一非传统系统首次达到 1 exaflop。这台由 Folding@home 联盟组装的众源超级计算机在呼吁帮助抵御新冠疫情后,达到了这一里程碑,到现在已有超过 100 万台计算机加入其中。

理论和实践中的Exaflop

许多组织从那时起就已开始安装理论峰值性能超过 1 exaflop 的超级计算机。需要注意的是,TOP500 榜单同时发布 Rmax(实际)和 Rpeak(理论)分数。

Rmax 指计算机实际表现出的最佳性能。

Rpeak 是一切系统都处于高水平运行时的最高理论性能,而这几乎从未发生过。该数值的计算方法通常是将系统中的处理器数量乘以其时钟速度,然后再将结果乘以处理器在一秒钟内可执行的浮点运算数。

因此,如果有人说他们的系统达到 1 exaflop,请询问他说的是 Rmax(实际)还是Rpeak(理论)。

Exaflop 时代的众多指标

这也是新百亿亿次时代的众多细微变化之一。

值得注意的是,HPL 和 HPL-AI 属于合成基准,即它们衡量的是数学程序的性能,而不是真实世界的应用。MLPerf 等其他基准则基于真实世界中的工作负载。

最后,衡量系统性能的最佳标准当然是它运行用户应用程序的情况。该衡量标准不是基于 exaflop,而是基于投资回报率。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5696

    浏览量

    110142
  • 计算机
    +关注

    关注

    19

    文章

    7841

    浏览量

    93494
  • AI
    AI
    +关注

    关注

    91

    文章

    41318

    浏览量

    302703

原文标题:什么是 Exaflop?

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI算力重塑光通信:磷化铟与薄膜铌酸锂的关键角色

    电子发烧友网报道(文/李弯弯)随着人工智能大模型训练的爆发式增长,数据中心对算力的需求持续攀升,同时对数据传输的需求也成指数级增长。   在这一背景下,光模块的重要性日益凸显。然而,随着光模块速率从400G、800G向1.6T乃至3.2T飞速迭代,行业面临着严峻的“功耗墙”和“互连瓶颈”。传统的硅基材料在高频高速场景下逐渐显露出力不从心,摩尔定律在光通信领域遭遇挑战。   为了突破这一瓶颈,产业界的目光开始从单纯的封装工艺转向更
    的头像 发表于 05-05 06:32 4939次阅读

    自动驾驶有了占用网络还需要卷积神经网络吗?

    在占用网络流行之前,自动驾驶的主流感知方案是基于CNN的目标检测。你可以把它想象成给摄像头拍到的每一张照片画框。
    的头像 发表于 05-04 18:05 1151次阅读
    自动驾驶有了占用网络还需要卷积神经网络吗?

    【瑞萨RA2L1入门学习】+ touch控制OLED

    开发板简介:RA-Eco-RA2L1 主控芯片RA2L1: 这是一款基于 48 MHz Arm Cortex-M23 内核架构的核心板,拥有现今 Arm Cortex-M 系列中极低的功耗表现。支持 1.6V 至 5.5V 宽压工作,配备增强型电容式触摸感应单元 (CTSU2)、高精度模拟电路和定时器。 核心特性: 内核与存储: 48MHz Arm Cortex-M23,256KB 代码闪存,32KB SRAM(支持 ECC),8KB 数据闪存(类似 EEPROM 功能)。 板载资源: 1 个复位按键,1 个自定义按键,2 个触摸按键,2 个 LED,板载 USB 转 TTL 模块,板载 SWD 接口(方便调试与下载)。 丰富外设: 12 位 ADC,12 位 DAC,低功耗比较器;32 位/16 位通用 PWM 定时器,低功耗异步通用定时器;RTC;UART、简单 SPI、简单 I2C、独立 SPI / I2C 多主接口、CAN;内置加密与安全功能。 在开发板上进行脉宽测试并使用OLED进行显示,首先完成了OLED测试,在此基础上完成触摸按键实验; 需要注意Touch必须设置不然会出错!!!设置CTSU打开DTC使能中断,设置触摸按键接口P109和P110; 从菜单栏点击Renesas Views → Renesas QE → CapTouch workflow (QE) 。选择正在开发的工程,跟随PPT完成设置; 点击Button并放置,Esc键结束放置。 双击Button00选择TS10/TS11,点击确定并创建 按照英文提示,按步骤完成touch按键调试; 输出文件: 然后在工程中完成函数调用,修改头文件: 实现按键控制oled显示代码如下: void qe_touch_main(void) { fsp_err_t err; err = R_IIC_MASTER_Open(&g_i2c_master0_ctrl, &g_i2c_master0_cfg); assert(FSP_SUCCESS == err); WriteCmd();//OLED初始化 OLED_Clear();//清屏 OLED_ShowString(16,1,"RA",16); OLED_ShowCHinese(32,1,3);//生 OLED_ShowCHinese(48,1,4);//态 OLED_ShowCHinese(64,1,5);//工 OLED_ShowCHinese(80,1,6);//作 OLED_ShowCHinese(96,1,7);//室 /* Open Touch middleware */ err = RM_TOUCH_Open(g_qe_touch_instance_config01.p_ctrl, g_qe_touch_instance_config01.p_cfg); if (FSP_SUCCESS != err) { while (true) {} } /* Main loop */ while (true) { /* for [CONFIG01] configuration */ err = RM_TOUCH_ScanStart(g_qe_touch_instance_config01.p_ctrl); if (FSP_SUCCESS != err) { while (true) {} } while (0 == g_qe_touch_flag) {} g_qe_touch_flag = 0; err = RM_TOUCH_DataGet(g_qe_touch_instance_config01.p_ctrl, &button_status, NULL, NULL); if (FSP_SUCCESS == err) { /* TODO: Add your own code here. */ if(button_status==1) { err = R_IOPORT_PinWrite(&g_ioport_ctrl, BSP_IO_PORT_01_PIN_03, BSP_IO_LEVEL_HIGH); OLED_Clear();//清屏 OLED_ShowString(16,1,"RA",16); OLED_ShowCHinese(32,1,3);//生 OLED_ShowCHinese(48,1,4);//态 } else if(button_status==2) { err = R_IOPORT_PinWrite(&g_ioport_ctrl, BSP_IO_PORT_01_PIN_04, BSP_IO_LEVEL_HIGH); OLED_Clear();//清屏 OLED_ShowCHinese(64,1,5);//工 OLED_ShowCHinese(80,1,6);//作 OLED_ShowCHinese(96,1,7);//室 } else { err = R_IOPORT_PinWrite(&g_ioport_ctrl, BSP_IO_PORT_01_PIN_03, BSP_IO_LEVEL_LOW); err = R_IOPORT_PinWrite(&g_ioport_ctrl, BSP_IO_PORT_01_PIN_04, BSP_IO_LEVEL_LOW); } } /* FIXME: Since this is a temporary process, so re-create a waiting process yourself. */ R_BSP_SoftwareDelay(TOUCH_SCAN_INTERVAL_EXAMPLE, BSP_DELAY_UNITS_MILLISECONDS); } } 最后在主函数中调用qe_touch_main
    发表于 05-04 17:24

    2026深入拆解:Gemini 3.0 镜像官网如何理解 FPGA 时序约束并自动生成 SDC 文件

    让 AI 直接根据一句“这个 200MHz 时钟需要 5% 的抖动约束,跨时钟域路径设为 false_path”自动吐出符合 Synopsys Design Constraints 格式的 SDC 文件,目前在国内无需特殊网络环境就能实现。通过聚合镜像 RskAi  调用 Gemini 3.0 的原生思维链与长上下文能力,只需将时钟结构、端口时序和例外需求描述清楚,即可生成语法正确、可直接在 Vivado 或 Quartus 中引用的约束文件。本教程用一个包含多时钟域和 DDR 接口的真实设计,完整拆解从需求到 SDC 的全过程。 为什么
    的头像 发表于 05-04 12:29 866次阅读
    2026深入拆解:Gemini 3.0 镜像官网如何理解 FPGA 时序约束并自动生成 SDC 文件

    晶振频率漂移的主要成因与机理分析的详解

    晶振的频率漂移是一个复杂的物理现象,它受到多种因素的影响。了解这些因素并采取相应的措施,可以在最大限度上减少频率漂移对电子系统性能的影响,确保系统的高效稳定运行。
    的头像 发表于 05-04 12:05 1906次阅读
    晶振频率漂移的主要成因与机理分析的详解

    嵌入式2---在单片机里实现module_init机制

    嵌入式2---在单片机里实现module_init机制 很多朋友在写单片机程序时,常会遇到这样的问题:所有模块的初始化函数(比如LED初始化、串口初始化、传感器初始化),都要手动在main函数里一一调用,不仅代码混乱、维护麻烦,而且新增或删除模块时,还要修改main函数,违背了“高内聚、低耦合”的原则。 其实在Linux系统中,module_init机制的核心思想也是一样的,Linux内核本身就是高度模块化的设计——驱动开发者只需通过module_init宏注册驱动初始化函数,
    的头像 发表于 05-04 11:24 1859次阅读
    嵌入式2---在单片机里实现module_init机制

    深度学习为什么还是无法处理边缘场景?

    [首发于智驾最前沿微信公众号]虽然自动驾驶车辆已经完成了数百万公里的行驶测试,深度学习也已被普遍应用,但依然会在一些看似简单的场景中犯下低级错误。比如在遇到一些从未见到过的边缘场景时,系统可能会选择视而不见甚至直接加速。 之所以出现这个问题,是因为深度学习模型大多建立在统计学基础之上,它们通过观察数以千万计的图像学习识别物体的特征。然而,真实世界的道路场景是无限多样的,这种基于“见多识广”的逻辑在面对罕
    的头像 发表于 05-04 10:16 700次阅读
    深度学习为什么还是无法处理边缘场景?

    2026年,各车企的自动驾驶方案到了什么阶段(二)?

    [首发于智驾最前沿微信公众号]之前和大家一起分析了小鹏、华为、特斯拉这3加车企的最新智驾方案( 相关阅读: 2026年,各车企的自动驾驶方案到了什么阶段 (一) ?),今天我们带大家来继续看看其他车企有哪些技术革新。 VLA加3D空间理解,理想MindVLA-o1想补上关键短板 理想汽车在2026年3月英伟达GTC大会上发布的MindVLA-o1,试图走一条与传统VLA方案不同的路,即将3D空间理解能力与语言推理能力深度融合,构建面向物理世界的通用智能体。 理想汽车基
    的头像 发表于 05-04 09:30 1589次阅读
    2026年,各车企的自动驾驶方案到了什么阶段(二)?

    氮化硅陶瓷气压烧结后需要热等静压(HIP)处理吗?

    氮化硅陶瓷气压烧结后需要热等静压(HIP)处理吗?——对结构件不同疲劳要求的成本效益分析 L₁₀寿命大幅提升的背后 某型号混合陶瓷轴承的台架试验数据值得注意:气压烧结态氮化硅球的滚动接触疲劳L₁₀寿命约为3×10⁷次应力循环,经HIP后处理后提升至8×10⁷次,增幅超过150%。然而,同一批次中用于非承载隔离垫的陶瓷件,经HIP处理后装机表现与烧结态并无统计差异。这个反差引出一个工艺决策问题:氮化硅陶瓷在气压烧结之后,是否必须追加
    的头像 发表于 05-04 07:43 793次阅读
    氮化硅陶瓷气压烧结后需要热等静压(HIP)处理吗?

    2026年,各车企的自动驾驶方案到了什么阶段(一)?

    2026年的北京车展上,几乎没有人再讨论一台车装了几颗激光雷达,各车企的竞争领域也变成如何让自动驾驶系统真正具备对物理世界的理解能力。 当一套智驾系统的基本感知能力不再有明显短板,当大多数主流车型都能实现城市NOA(领航辅助驾驶),简单的看得见、开得了就已经不够了。行业必然会转向更底层也更难的问题,车能不能理解它看到的东西?能不能像一个老司机那样预判风险?那各车企的自动驾驶方案都做到了吗? 从规则到推理,小鹏的
    的头像 发表于 05-03 09:02 1158次阅读
    2026年,各车企的自动驾驶方案到了什么阶段(一)?

    嵌入式开发工具的现状和发展简史

    集成开发环境(IDE)正在经历深刻变革。传统意义上披着“图形界面”外衣的编译器,已不再能满足当今的需求。随着嵌入式系统变得越来越强大,而且AI开始融入几乎所有设计中,开发者需要的是能够理解开发者工作内容的开发环境。新一代IDE应能帮助驾驭复杂性,强化安全性,并让软件开发工作更加轻松愉悦。
    的头像 发表于 11-11 09:49 1514次阅读

    一文读懂京东技术发展简史

    文章目录 前言 京东发展历程 京东商城技术的演进 京东自研技术 京东前端框架Nerv 京东后端架构 京东的服务框架 分布式数据库StarDB 京东云 移动端 Flutter在京东的实践 大数据 咚咚架构 ShardingSphere 京东人物谱 参考 “京东可以高速发展到今天的规模的原因,其中最核心的是坚持“倒三角”战略:建立出色的团队;打造财务、物流和技术三大核心系统;降低成本、提升效率;为用户带来最佳体验。在《京东技术解密》一书中,大家会看到技术驱动的力量,
    的头像 发表于 11-10 13:53 1240次阅读

    物联网20年简史

    二十年前, “万物互联” 还只是一个概念。 二十年后,它已深入能源、制造、交通、医疗、农业等每一个行业的神经末梢。 物联网(IoT)不再是“未来”,而是工业世界的“底座”。 今天,就让我们一起穿越时间的浪潮,回望物联网的二十年演变之路。 一、2005-2010:概念萌芽期 关键词:传感器网络、RFID、M2M 这五年,是“物联网”被正式提出的阶段。2005年,**国际电信联盟(ITU)**首次提出“IoT”概念,标志着万物互联的构想进入公众视野。 当时的
    的头像 发表于 10-28 11:36 770次阅读
    物联网20年<b class='flag-5'>简史</b>

    人形机器人进化简史

    最近火爆全网的机器人格斗直播,尽管有很多瑕疵,赛博朋克感依然让人惊呼科幻走入现实。
    的头像 发表于 07-18 14:58 2048次阅读

    《电子发烧友电子设计周报》聚焦硬科技领域核心价值 第13期:2025.05.26--2025.05.30

    标准简史; IEEE Std 802.3df 和 IEEE P802.3dj 标准的更新; 助力下一代超大规模数据中心; 3、前沿技术公开课--知存科技+知名高校教授打造存内计算系列课程 (值得
    发表于 05-30 19:39