当前,AI芯片的功能日益复杂化、多样化,一方面,芯片厂商纷纷给出不同的衡量标准,声称其产品在计算性能、单位能耗算力等方面处于行业领先水平;另一方面,用户却关心如何能从厂商给出的信息中判断出芯片是否能实际满足其真实场景的计算需求。
因此,成立于2018年5月的行业基准测试组织MLPerf推出了MLPerf基准测试,MLPerf基准测试是业内首套衡量机器学习软硬件性能的通用基准,即训练过的神经网络在不同量级的设备(物联网、智能手机、PC、服务器)、各种应用(自动驾驶、NLP、计算机视觉)上处理新数据的速度。MLPerf现有50多家成员,包括谷歌、微软、Facebook、阿里巴巴等企业,以及斯坦福、哈佛、多伦多大学等高校,并跟随AI的发展步伐持续演进。
根据近日发布的MLPerf基准测试结果显示,内置超过2000个NVIDIA A100 GPU的NVIDIA全新DGX SuperPOD在市售商用产品中脱颖而出,在各项针对大规模计算性能的MLPerf基准测试中均取得了优异成绩。此次已是NVIDIA在MLPerf训练测试中连续第三次展现了最强劲的性能。2018年12月,NVIDIA首次在MLPerf训练基准测试中创下了六项纪录,次年7月NVIDIA再次创下八项纪录。
NVIDIA在测试中用到的产品基于最新NVIDIA Ampere架构以及Volta架构。A100 Tensor Core GPU在加速器的全部八项MLPerf基准测试中展现了最快的性能。在实现总体最快的大规模解决方案方面,利用HDR InfiniBand实现多个DGX A100系统互联的庞大集群——DGX SuperPOD系统在性能上,也开创了八项全新里程碑。
NVIDIA是唯一一家在所有测试中均采用市售商用产品的公司。其他大多数提交使用的要么是预览类别(preview category),其所用的产品预计需要几个月后才会面市,要么使用的是研究类别的产品,更是较长一段时间内都不会面市。
速度与规模兼得的DGX SuperPOD架构
NVIDIA在Selene上运行了系统的MLPerf测试,Selene是基于DGX SuperPOD的内部集群。DGX SuperPOD是针对大规模GPU集群的公共参考架构,NVIDIA DGX SuperPOD基于NVIDIA DGX A100系统。NVIDIA DGX A100在一台6U服务器中集成了8颗A100 GPU以及NVIDIA Mellanox HDR InfiniBand网络技术,可以为高性能计算、数据分析和AI工作(包括训练和推理)等多种组合提供加速,并实现快速部署。
Selene最近在TOP500榜单中首次亮相,凭借百亿亿次(exaflops)级别的AI性能,成为美国最快的工业系统。它也是Green500榜单中全球第二大节能系统。除了出色的能效表现,Selene的快速部署能力也是令人刮目相看。工程师们可以使用NVIDIA的模块化参照架构,在不到四周的时间内就能快速构建Selene。4名操作人员仅需不到1个小时,就能组装起一套由20台系统组成的DGX A100集群,创建出一套性能可以达到2petaflops的系统。
目前,客户已经采用这些参考架构来构建自身的DGX POD和DGX SuperPOD。其中包括美国最快的学术领域AI超级计算机HiPerGator,该超级计算机也将成为佛罗里达大学跨学科AI创新的基石。
同时,全球领先的超算中心Argonne国家实验室正在使用DGX A100,寻找抗击COVID-19疫情的方法。Argonne国家实验室是六个首批采用A100 GPU的高性能计算中心中的先行者之一。
DGX SuperPOD现已助力汽车领域的大陆集团、航空航天领域的Lockheed Martin和云计算服务领域的微软等公司取得了良好的业务成果。这些系统的顺利运转,部分得益于其广泛的生态系统对于NVIDIA GPU和DGX支持。
软硬结合一年半内实现4倍性能提升
MLPerf最新基准测试包含两项新的测试和一项经大幅修订的测试。NVIDIA在这三项测试中均取得了优异的成绩。其中,一项基准测试对推荐系统的性能进行了排名。推荐系统是日益普及的一项AI任务。另一项基准测试对使用BERT的对话式AI进行了测试。BERT是现有最复杂的神经网络模型之一。最后,强化学习测试中使用了Mini-go和全尺寸19x19围棋棋盘。该测试是本轮最复杂的测试,内容涵盖从游戏到训练的多项操作。
最新结果表明,NVIDIA聚焦于不断发展跨处理器、网络、软件和系统的AI平台。例如,测试结果显示,相较于首轮MLPerf训练测试中使用的基于V100 GPU的系统,如今的DGX A100系统能够以相同的吞吐率,实现高达4倍的性能提升。同时,得益于最新的软件优化,基于NVIDIA V100的DGX-1系统亦可实现高达2倍的性能提升。
不到两年,整个AI平台的创新就取得了如此优异的成绩。如今,NVIDIA A100 GPU搭配CUDA-X库的软件更新,为通过Mellanox HDR 200Gb/s InfiniBand网络构建的扩展集群注入了强劲动力。HDR InfiniBand可实现极低的延迟和高数据吞吐量,同时通过可扩展分层聚合和缩减协议(SHARP)技术,提供智能深度学习计算加速引擎。
NVIDIA Ampere市场采用速度刷新纪录
A100是首款基于NVIDIA Ampere架构的处理器。得益于其诸多创新,NVIDIA A100集合了AI训练和推理,其性能相比于前代产品提升了高达20倍。
NVIDIA Ampere GPU采用了7纳米制程工艺,包含超过540亿个晶体管,这样的数据足以令人乍舌。而NVIDIA广泛采用的Tensor Core核心也获得了更新,具有TF32的第三代Tensor Core核心能在无需更改任何代码的情况下,使FP32精度下的AI性能提高多达20倍。此外,Tensor Core核心现在支持FP64精度,相比于前代,其为HPC应用所提供的计算力比之前提高了多达2.5倍。
同时,全新Ampere架构搭载了多实例GPU(MIG)、第三代NVIDIA NVLin、结构化稀疏等技术。其中MIG技术可以将单个A100 GPU分割为多达七个独立的GPU,为不同规模的工作提供不同的计算力,以此实现最佳利用率和投资回报率的最大化。而第三代NVIDIA NVLink使GPU之间的高速联接增加至原来的两倍,实现服务器的高效性能扩展。第三代NVIDIA NVLink互联技术能够将多个A100 GPU合并成一个巨大的GPU来执行更大规模的训练任务。
A100不仅打破了性能纪录,其进入市场的速度也比以往任何NVIDIA GPU更快。A100在发布之初用于NVIDIA的第三代DGX系统。正式发布仅六周后,A100就正式登陆了Google Cloud 。
为了满足市场的强劲需求,AWS、百度云、微软Azure和腾讯云等全球领先的云提供商,以及Dell Technologies、HPE、浪潮和超微等数十家主要服务器制造商,均采用了A100。全球用户都在使用A100以应对AI、数据科学和科学计算中最为复杂的挑战,包括新一代的推荐系统或对话式AI应用,或进一步探索COVID-19的治疗方法。
阿里巴巴在11月的“双十一”期间创造了380亿美元的销售纪录,其推荐系统使用了NVIDIA GPU,使每秒查询量达到了CPU的100倍以上。而对话式AI自身也成为了业界关注的焦点,推动从金融到医疗健康等行业的业务发展。
今年五月,NVIDIA发布了两个应用框架——用于对话式AI的Jarvis和用于推荐系统的Merlin。 Merlin中包含了助力最新MLPerf基准测试结果的HugeCTR训练框架。这些应用框架仅仅是一部分。在不断壮大的应用框架中,还有面向汽车行业市场的NVIDIA DRIVE,面向医疗健康市场的Clara,面向机器人技术市场的Isaac,以及面向零售/智能城市市场的Metropolis。
NVIDIA生态系统赋能AI产业
事实上,NVIDIA的GPU成为人工智能的基石,一方面是其在GPU上面的持续创新,更因为其生态系统。在提交结果的九家公司中,除NVIDIA外还有六家公司提交了基于NVIDIA GPU的测试结果,其中包括三家云服务提供商(阿里云、谷歌云和腾讯云)和三家服务器制造商(戴尔、富士通和浪潮),凸显了NVIDIA生态系统的优势。
这些合作伙伴大多采用了NVIDIA软件中心NGC中的容器,以及用于参赛的公开框架。包括这些MLPerf合作伙伴在内的近二十家云服务提供商和OEM组成的生态系统,已采用或计划采用NVIDIA A100 GPU来打造在线实例、服务器和PCIe卡。
现在,大多数NVIDIA及其合作伙伴在最新MLPerf基准测试中使用的软件,已可通过NGC获取。NGC中包括多个GPU优化的容器、软件脚本、预训练模型和SDK,可助力数据科学家和开发者在TensorFlow和PyTorch等常用框架上加速AI工作流程。
结语
目前人工智能将成为新一轮产业变革的核心驱动力,从MLPerf基准测试结果可以看到NVIDIA最新一代A100 GPU的强大AI性能,这为用户进行AI选型提供了参考依据,更好地支撑AI应用的创新实践,推动整个AI产业链的发展。
责任编辑:pj
评论
查看更多