0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

HPC、AI与云计算:当智能时代三叉戟在亚马逊云科技完美融合

脑极体 来源:脑极体 作者:脑极体 2022-08-18 09:19 次阅读

希腊神话中,海神与丰收之神波塞冬手持三叉戟,为航船保驾护航,为农人带来清泉。从此之后,三叉戟经常用来比喻三种事物紧密结合,形成合力,比如足球世界很多球队都有经典的锋线三叉戟。

在企业上云与产业智能化的浪潮里,也有前沿技术趋势上的三叉戟组合:业务与组织上云正在成为绝大多数企业的数字化发展选择;算力逐渐成为企业的战略性资源,而云端近乎无限的集群算力,使越来越多的行业与场景创新可以依赖云端高性能计算来完成;AI正在改变千行百业的生产方式,成为科研与产业探索的先驱力量,机器学习深度学习也带来了人工智能专项算力需求的爆发。

而在很多人的印象中,HPC高性能计算、AI、云服务的三叉戟还处在各自独立,并行发展的阶段,尤其在云端实现高性能计算似乎还过于前卫。

但从产业效率的逻辑上看,在云端实现可以高质量、高效率的AI训练与部署的高性能计算,其实是产业集约化与社会低成本创新的大势所趋。只有把这三项技术完美融合到一起,才能铸成智能时代所需的数字化三叉戟。

如何熔炼这把时代三叉戟,亚马逊科技已经有了一些答案。

走向云端:高性能计算的产业趋势与挑战

云计算与高性能计算的关系,真的只能格格不入吗?答案可能并非如此。

根据Hyperion Research市场调研的数据来看,到2022年底将会有18.8%的HPC在云端运行,而这个数据在2021年是12.3%,虽然大多数HPC任务依旧依赖于超算中心和本地硬件,但在云端获取高性能计算,可以说是产业发展的大势所趋。在云端获取高性能计算,在目前阶段客户会担心遇到一些挑战。比如说:管理挑战,大规模计算集群难以创建和管理,是否能够有快捷的部署方式和高效便捷的管理手段;能效挑战,或者说是对云上高性能计算的性价比考虑,如何在云端发挥HPC的最大能效是很多用户担心的话题;安全挑战,大量HPC处理的任务与数据都密不可分,有数据势必会有数据安全的顾虑,云端的数据安全如何交付给用户一个放心的环境。

但从高性能计算行业发展趋势上看,这些问题都是可以在实践中被逐个解决的。从基础的计算逻辑上看,云端获取高性能计算更加经济实惠,并且用户可以弹性获取异构计算资源,真正实现计算与任务的适配。从单个节点性能上看,云端的计算资源性能更好;而在计算集群场景下,云端可以让用户获得线性增长的计算性能,避免算力浪费。

所以,在云端实现高性能计算并不是不可能,反而因为云端海量扩展的算力,不断增强的但节点的计算性能,以及方便高效的算力管理手段,以及云原生的系统及数据的安全保障,使得众多行业的高性能计算可以得以在云端运行。

在如何实现云端获取可靠HPC的探索中,亚马逊云科技已经实现了行业领军级的探索。

技术融合与产业平衡:亚马逊云科技的高性能计算探索

在目前阶段,亚马逊云科技已经可以提供高度可定制的 HPC 计算平台,为用户带来多样化的异构计算资源以及定制化的计算实例。尤其值得注意的是,以软件生态丰富著称的亚马逊云科技在HPC领域同样提供了大量可用、低成本的软件,帮助用户解决管理与调度等领域的问题。

总体而言,亚马逊云科技的HPC探索呈现出两大核心差异:芯片、云、存储、软件、AI等领域的技术经验的高度融合,以及面向行业需求与用户痛点,进行了大量高度产业指向的软硬件生态。

在高性能计算客户关心的计算,网络,存储以及应用软件生态适配上,亚马逊云科技都为客户提供了成熟的HPC相关服务保障。

在算力层,亚马逊云科技提供包括CPUGPUARM在内的多样化异构计算支持,以及定制化的弹性计算实例,满足用户在AI等HPC高发任务中的计算资源需求。

在存储层,集群化算力需求会导致对存储的海量高并发访问,这就让存储的性能非常关键。亚马逊云科技提供了面向高性能计算场景的存储支撑,并且可以在云端实现多级的文件存储策略,帮助用户实现根据计算需求来弹性规划存储使用,进而实现降低云端HPC的存储成本,提升数据调用、管理效率。

在云端的网络里,亚马逊云科技可以为客户提供超级计算应用程序所需的持续低延迟,高带宽的网络环境,用户可以采用亚马逊云科技推出的高达100Gbps带宽吞吐,支持MPI的EFA(Elastic Fabric Adapter)网卡,推出了低延迟,降低网络抖动的SRD(Scalable Reliable Datagram)协议,加速节点之间的通信

在软件层,亚马逊云科技面向迁移、调度,包括可视化等等HPC场景需求,提供了丰富且低成本的软件工具。比如使用亚马逊云科技 ParallelCluster 可以说实现快速构建 HPC 计算环境,简化 HPC 集群的部署和管理。亚马逊云科技 Step Functions 是一项低代码、可视化的工作流服务,可以帮助开发人员构建分布式应用程序、自动化 IT 和业务流程并构建数据和机器学习管道,从而降低综合开发成本。这对于AI等领域的高性能计算任务来说非常重要。丰富、专业且低门槛的软件生态,让亚马逊云科技可以帮助高性能计算用户节约掉巨大的软件定制开发成本,实现产业级的高性能计算应用。

基于亚马逊云科技多样化的高性能计算探索,在云端获取集群化的澎湃算力已经成为可能。而这样一种可能带来的直接影响,就是为大规模的AI应用潮奠定基础。

智能晨曦:AI大航海带来的计算浪潮

随着预训练大模型与AI科学计算开始成为行业主流,AI训练与部署所需的算力开始激增,尤其是AI任务对高性能计算的依赖逐渐被放大。或许可以说,产业智能化的晨曦逐渐绽放,必须建立在HPC的坚实算力基座上。

新药研发、科研研究、地质勘探等结构复杂、数据量庞大的AI任务开始增多,对HPC提出了一系列全新的需求。比如计算集群化的要求不断提升,异构计算的能力要求更加严苛、数据吞吐量与吞吐效率要求不断加强等等。而在这样的“AI大航海”时代,如果企业和科研机构依旧广泛采用搭建硬件计算池的方向来实现HPC,那么显然产业效率很低,综合成本浪费巨大,而物理集群从硬件采购,到安装、部署等都需要较长的时间。对于时效性要求极高的高性能计算任务来说,显然无法满足其需求。

面对机器学习、深度学习以及其他AI任务带来的算力需求,亚马逊云科技在云端不仅提供了搭载企业级GPU的计算资源,同时针对机器学习和深度学习的工作特点,自主研发了相对应的芯片,并且通过云服务的形式交付给客户使用。目前阶段,亚马逊云科技可以为客户的机器学习与深度学习任务提供搭载了4000张NVIDIA A100 GPU的超大规模计算集群,提供400 Gbps非阻塞联网基础设施,以及通过 FSx for Lustre 实现的高吞吐能力、低延迟存储。而这样规模的计算集群,在物理超算中心中其实是很难实现的。在AI大航海时代,从云端获取针对机器学习、深度学习的高性能算力显然是最合理的方案。

面向智能时代必然高速涌起的HPC需求,亚马逊云科技通过产业知识与服务经验的积累,最终将AI、HPC、云计算,三项明星技术融合成了一把三叉戟。这把三叉戟还将持续进化,帮助用户在智能化浪潮中出海远航,在数字化田野中收获价值。

在今年6月初的全球ISC2022大会上,亚马逊云科技推出了一系列针对高性能计算的云服务,有专门针对HPC工作负载的计算实例HPC6a。经过优化,可高效运行计算密集型、高性能计算工作负载,如计算流体动力学、油藏建模、天气模拟,以及有限元分析等。相对于与之相当的 Amazon EC2 基于 x86 的计算优化型实例,Hpc6a 实例所提供的性价比最多更高出 65%。使用 Hpc6a 实例,您可以大幅降低 HPC 工作负载的成本,同时利用 AWS 的弹性和可扩展性。在GPU实例上,新型实例 Amazon EC2 P4de 推出预览版,这款实例可提供机器学习(ML)训练和高性能计算(HPC)应用程序所需的极佳性能,例如对象检测、语义分割、自然语言处理、地震分析和计算流体动力学等。而亚马逊云科技一直以来致力于发展的基于ARM的芯片Graviton系列,也在今年发布了第三代Graviton处理器系列的最新产品Graviton3。与AWS Graviton2处理器相比,它们的计算性能提高了25%,浮点性能提高了2倍,加密工作负载性能提高了2倍。

想要了解亚马逊云科技在高性能计算领域的持续进化;想要明晰高性能计算如何与机器学习,真正量子计算这样的前沿科技相结合;想要提前洞察各行业中蕴藏的计算潜力,不妨关注8月24日13:30在金茂北京威斯汀大饭店三层会议大厅 AB举办的“亚马逊云科技 HPC +云上业务加速创新论坛”。

a49e8e23b0484db08afde8869a798e11~tplv-tt-shrink:640:0.image

这场活动将汇聚来自亚马逊云科技与各行业的技术专家,共同梳理计算与智能的发展轨迹,揭秘“ HPC +”时代的创新机遇。

8月24日,我们不见不散。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 云计算
    +关注

    关注

    39

    文章

    7728

    浏览量

    137182
  • AI
    AI
    +关注

    关注

    87

    文章

    30086

    浏览量

    268348
  • HPC
    HPC
    +关注

    关注

    0

    文章

    311

    浏览量

    23677
  • 亚马逊
    +关注

    关注

    8

    文章

    2624

    浏览量

    83174
收藏 人收藏

    评论

    相关推荐

    计算hpc的主要功能是什么

    计算HPC(High-Performance Computing)是指利用计算技术来实现高性能计算
    的头像 发表于 10-22 10:20 156次阅读

    HPC计算前景

    高性能计算HPC)与计算的结合,正逐步成为推动科技创新和产业升级的重要引擎。随着数据规模的不断扩大和计算需求的日益复杂,
    的头像 发表于 10-16 10:17 177次阅读

    计算hpc是什么意思

    计算HPC(High-Performance Computing)是指利用计算技术来实现高性能计算
    的头像 发表于 10-15 10:01 219次阅读

    如何理解计算

    和硬件资源。 在数字化时代,互联网已经成为基础设施。计算使得数据中心能够像一台计算机一样去工作。通过互联网将算力以按需使用、按量付费的形式提供给用户,包括:
    发表于 08-16 17:02

    AI服务器:开启智能计算时代

    一、AI服务器的定义与特点 AI服务器的定义 AI服务器是一种基于
    的头像 发表于 08-09 16:08 717次阅读

    亚马逊科技启动"智能家居与智能产品创新加速计划"

    上海2024年7月31日 /美通社/ -- "亚马逊科技汽车暨制造与消费电子行业峰会"上,亚马逊科技宣布正式启动"
    的头像 发表于 08-01 09:56 336次阅读
    <b class='flag-5'>亚马逊</b><b class='flag-5'>云</b>科技启动&quot;<b class='flag-5'>智能</b>家居与<b class='flag-5'>智能</b>产品创新加速计划&quot;

    亚马逊科技启动“智能家居与智能产品创新加速计划”

    上海 ——2024 年 7 月 31 日 亚马逊科技汽车暨制造与消费电子行业峰会”上,亚马逊科技宣布正式启动“
    发表于 07-31 16:56 905次阅读
      <b class='flag-5'>亚马逊</b><b class='flag-5'>云</b>科技启动“<b class='flag-5'>智能</b>家居与<b class='flag-5'>智能</b>产品创新加速计划”

    阿里蔡崇信谈AI计算:未来融合趋势与微软的独立之路

    科技界风起云涌的当下,人工智能AI)与计算的结合已成为行业发展的重要趋势。6月17日,
    的头像 发表于 06-17 14:50 469次阅读

    店匠科技选择亚马逊科技为首选服务供应商

    ,应用亚马逊科技的生成式AI技术与服务,"GenAI营销素材创作、AI建站Copilot、智能
    的头像 发表于 06-11 16:40 307次阅读

    亚马逊科技与SAP携手ERP体验,引领AI新纪元

    近日,全球计算的领军者亚马逊科技与知名的企业应用解决方案提供商SAP共同宣布,双方将扩大战略合作,共同打造现代化的ERP体验,并借助生
    的头像 发表于 06-11 14:43 446次阅读

    西门子中国与亚马逊科技签署战略合作协议 加速生成式AI制造行业创新应用落地

    和服务,并结合西门子工业领域的深厚积累和经验,联合创新团队将深入探索计算、人工智能、机器学习、大数据等前沿技术与制造业更进一步融合,并加
    发表于 04-18 11:30 193次阅读
    西门子中国与<b class='flag-5'>亚马逊</b><b class='flag-5'>云</b>科技签署战略合作协议 加速生成式<b class='flag-5'>AI</b><b class='flag-5'>在</b>制造行业创新应用落地

    腾讯与 IBM 共同打造“高性能计算服务解决方案”

    今天的“人工智能时代”,与 AI 技术并驾齐驱的是服务于 AI 算法训练及推理的“高性能计算
    的头像 发表于 12-22 18:55 557次阅读
    腾讯<b class='flag-5'>云</b>与 IBM 共同打造“高性能<b class='flag-5'>计算</b>服务解决方案”

    边缘计算新篇章:亚马逊科技海外服务器服务成就全球创新

    的最新发展和创新成果,引发与会者热烈关注。 re:Invent的核心主题是不断创新,与会者对亚马逊科技海外服务器整个技术栈各个层次上的创新表示高度认同。Hofmeyr在演讲中回顾了亚马逊
    的头像 发表于 12-21 15:45 428次阅读
    边缘<b class='flag-5'>计算</b>新篇章:<b class='flag-5'>亚马逊</b><b class='flag-5'>云</b>科技海外服务器服务成就全球创新

    2023亚马逊科技re:Invent Swami主题演讲重磅发布

    2023亚马逊科技re:Invent全球大会进入第天,亚马逊科技数据和人工智能副总裁Swa
    的头像 发表于 12-01 14:59 736次阅读
    2023<b class='flag-5'>亚马逊</b><b class='flag-5'>云</b>科技re:Invent Swami主题演讲重磅发布

    亚马逊科技与 NVIDIA 宣布开展战略合作,为生成式 AI 提供全新超级计算基础架构、软件和服务

    亚马逊科技将提供首款搭载 NVIDIA Grace Hopper 超级芯片 和亚马逊科技可扩展性 UltraCluster 的 
    的头像 发表于 11-29 21:00 611次阅读
    <b class='flag-5'>亚马逊</b><b class='flag-5'>云</b>科技与 NVIDIA 宣布开展战略合作,为生成式 <b class='flag-5'>AI</b> 提供全新超级<b class='flag-5'>计算</b>基础架构、软件和服务