超级计算机遍布世界各地,以解决人类面临的一些最大挑战。这些机房大小的大型机比任何笔记本电脑都强大几百万倍,具有令人眼花缭乱的快速计算能力。这些大型机曾经专门供大型政府实验室、美国国家航空航天局(NASA)和制造、金融、石油和天然气,以及航空航天等垂直行业的顶级参与者使用。但是现在,超级计算机的设计和构建方式正在发生变化,将它们应用于新的用例范围。得益于新一代的处理能力和超高速网络,我们正进入一个新的、或许更民主化的高性能计算(HPC)时代。
图形处理单元(GPU)取代了中央处理单元(CPU)进行处理,从而显着提高了计算吞吐量。与传统的高性能计算(HPC)系统相比,基于GPU的系统占用的空间较小,并且它们的运行效率更高且运营成本更低。
但是随着计算能力的提高,对最大数据吞吐量的需求也在增加。InfiniBand(HPC世界中常用的一种网络标准)可以满足对高吞吐量和极低延迟的需求。
强有力的支持生态系统是必须被视为民主化的明确标志的另一个因素。现在有600多个HPC应用程序利用GPU和InfiniBand网络来提高性能,因此在商业和研究领域的采用率一直很强。
引领下一代人工智能
这种日益可访问的处理能力的另一个新兴用途是实现人工智能。使用大规模人工智能模型的趋势正在改变,这正在改变人工智能的构建方式。
例如,微软公司是人工智能的行业先驱,并同时使用GPU和InfiniBand。通过在其Azure平台中利用最新的超级计算技术来支持一类新型的大规模模型,Microsoft正在实现新一代的人工智能。通过使用大量数据,这些大规模模型仅需训练一次。然后,可以使用更小的数据集和资源针对不同的任务和领域对模型进行微调。
衡量绩效的重要性
随着高性能计算(HPC)用例的扩展,越来越多的超级计算机被构建为更快,更强大的规格。了解不同的高性能计算(HPC)机器之间如何进行比较仍然与以往一样重要。因此,TOP500项目的意义在于对世界上500个最强大的非分布式计算机系统进行排名和详细说明。该项目始于1993年,至今仍每年两次发布更新的超级计算机列表,现在所包含的机器范围比早期的要多得多。
TOP500项目的价值在于为跟踪和检测高性能计算的趋势提供可靠的基础。但是考虑一下用于量化HPC的基准。
从历史上看,最重要的是长期的HPL基准。HPL是高性能Linpack Benchmark的便携式实现。它用作提供TOP500数据的参考,并且是全球超级计算机排名中的关键工具。但是,它仅以触发器的形式测量计算能力。
HPCG基准(高性能共轭梯度)是作为替代方案而创建的,它提供了另一个对HPC系统进行排名的指标,并旨在作为HPL的补充。尽管它尚未纳入TOP500排名。
正如人们已经看到的那样,人工智能现在已经成为高性能计算领域的关键部分,因此有人认为新的,更合适的基准是对这一趋势的必要认识。
现代HPC系统的新指标
MLPerf是一种新型的基准测试组织。与人工智能超级计算的时代相吻合,其使命是建立公平,有用的基准,以衡量机器学习(ML)硬件,软件和服务的训练和推理性能。它日益受到人们的认可,正使其成为研究人员、开发人员、硬件制造商、机器学习框架的构建者、云服务提供商、应用程序提供商以及最终用户的有用工具。
它的目标围绕通过公平和有用的衡量来加速机器学习的进步,从而为商业和研究社区提供服务。它还旨在为竞争系统的比较提供更公平的基础,同时鼓励创新。它的精神风貌可能使它在其他HPC基准测试中脱颖而出,这是它致力于保持基准测试负担得起,以便所有人都能参与的承诺。MLPerf得到了包括亚马逊、百度、Facebook、谷歌、哈佛、英特尔、微软和斯坦福等组织的支持,并且随着人工智能自身的发展而不断发展,以保持相关性。
当今最大的HPC和人工智能系统不仅通过具有InfiniBand网络的GPU来解决传统HPC工作负载的新方法,而且还推动了新一轮的推荐系统和对话式人工智能应用程序的发展,而其他系统则推动了对个性化和精准医学的追求。
责任编辑:tzh
-
cpu
+关注
关注
68文章
10872浏览量
211985 -
计算
+关注
关注
2文章
450浏览量
38823 -
人工智能
+关注
关注
1791文章
47348浏览量
238730 -
机器学习
+关注
关注
66文章
8422浏览量
132710
发布评论请先 登录
相关推荐
评论