0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

亚马逊云科技与英伟达携手开发下一代基础设施

全球TMT 来源:全球TMT 作者:全球TMT 2023-03-22 18:05 次阅读

助力大型机器学习模型训练和生成式AI应用程序构建

部署在Amazon EC2 UltraCluster中的新型Amazon EC2 P5实例经过充分优化,可以利用英伟达Hopper GPU加速生成式AI的大规模训练和推理

北京2023年3月22日/美通社/ --亚马逊旗下的亚马逊云科技和英伟达宣布了一项多方合作,致力于构建全球最具可扩展性且按需付费的人工智能(AI)基础设施,以便训练日益复杂的大语言模型(LLM)和开发生成式AI应用程序。

借助由NVIDIA H100 Tensor Core GPU支持的下一代Amazon Elastic Compute Cloud(Amazon EC2)P5实例,以及亚马逊云科技最先进的网络和可扩展性,此次合作将提供高达20 exaFLOPS的计算性能来帮助构建和训练更大规模的深度学习模型。P5实例将是第一个利用亚马逊云科技第二代Amazon Elastic Fabric Adapter(EFA)网络技术的GPU实例,可提供3200 Gbps的低延迟和高带宽网络吞吐量。因此客户能够在Amazon EC2 UltraCluster中扩展多达2万个H100 GPU,满足按需访问超级计算机的AI性能需求。

"亚马逊云科技和英伟达合作已超过12年,为人工智能、机器学习、图形、游戏和高性能计算(HPC)等各种应用提供了大规模、低成本的GPU解决方案。"亚马逊云科技首席执行官Adam Selipsky表示,"亚马逊云科技在交付基于GPU的实例方面拥有无比丰富的经验,每一代实例都大大增强了可扩展性,如今众多客户将机器学习训练工作负载扩展到1万多个GPU。借助第二代Amazon EFA,客户能够将其P5实例扩展到超过2万个英伟达H100 GPU,为包括初创公司、大企业在内的所有规模客户提供所需的超级计算能力。"

"加速计算和人工智能已经到来,而且适逢其时。加速计算提升性能的同时,降低了成本和功耗,让企业事半功倍。生成式AI已促使企业重新思考产品和商业模式,力求成为颠覆者,而不是被颠覆。"英伟达创始人兼首席执行官黄仁勋表示,"亚马逊云科技是英伟达的长期合作伙伴,也是首家提供英伟达GPU的云服务提供商。我们很高兴能够结合各自的专长、规模和业务范围,帮助客户利用加速计算和生成式AI抓住未来的大好机遇。"

新的超级计算集群

新的P5实例构建于亚马逊云科技和英伟达十多年来在AI和HPC基础设施交付方面的合作基础之上,也立足于双方在P2、P3、P3dn和P4d(e)前四代实例方面的合作。P5实例是基于英伟达GPU的第五代亚马逊云科技产品,与最初部署的英伟达GPU(始于CG1实例)已相隔近13年。

P5实例非常适合对日益复杂的LLM和计算机视觉模型进行训练和运行推理,并应用于要求严苛的计算密集型生成式AI应用程序,包括问题回答、代码生成、视频图像生成和语音识别等领域。

对于致力于以可扩展和安全的方式将AI赋能的创新推向市场的企业和初创公司而言,P5实例是不二之选。P5实例采用8个英伟达H100 GPU,能够在一个Amazon EC2实例中实现16 petaFLOPs的混合精度性能、640 GB的高带宽内存和3200 Gbps的网络连接(比上一代实例高出8倍)。P5实例性能的提升使机器学习模型训练时间加快了6倍(将训练时间从数天缩短到数小时),额外的GPU内存可帮助客户训练更庞大更复杂的模型。预计P5实例的机器学习模型训练成本将比上一代降低40%。相比灵活性较差的云产品或昂贵的本地系统,它为客户提供了更高的效率。

Amazon EC2 P5实例部署在Amazon EC2 UltraCluster的超大规模集群中,该集群由云端最高性能的计算、网络和存储系统组成。每个EC2 UltraCluster都是世界上功能最强大的超级计算机之一,助力客户运行最复杂的多节点机器学习训练和分布式HPC工作负载。它们采用PB级无阻塞网络,基于Amazon EFA,这种面向Amazon EC2实例的网络接口使客户能够在亚马逊云科技上运行需要在大规模高级节点间通信的应用程序。EFA的定制操作系统绕过硬件接口,并与英伟达GPUDirect RDMA整合,可降低延迟、提高带宽利用率,从而提升实例间通信性能,这对于在数百个P5节点上扩展深度学习模型的训练至关重要。借助P5实例和EFA,机器学习应用程序可以使用NVIDIA Collective Communications Library(NCCL)扩展到多达2万个H100 GPU。因此,客户可以通过亚马逊云科技的按需弹性和灵活扩展能力,获得本地HPC集群的应用性能。除了这些出色的计算能力外,客户可以使用业界最广泛最深入的服务组合,比如面向对象存储的Amazon S3、面向高性能文件系统的Amazon FSx,以及用于构建、训练和部署深度学习应用的Amazon SageMaker。P5实例将在今后几周提供有限预览版。欲了解详情,请访问https://pages.awscloud.com/EC2-P5-Interest.html。

借助新的Amazon EC2 P5实例,Anthropic、Cohere、Hugging Face、Pinterest和Stability AI等客户将能够大规模构建和训练最庞大的机器学习模型。基于其它几代Amazon EC2实例的合作将帮助初创公司、大企业和研究人员无缝扩展来满足各自的机器学习需求。

Anthropic构建了可靠、可解释和可操控的AI系统,将创造巨大商业价值并造福公众。"Anthropic正在努力构建可靠、可解释和可操控的AI系统。虽然当前已有的大型通用AI系统大有助益,但它们却是不可预测、不可靠和不透明的。我们的目的是解决这些问题,为人们部署更实用的系统。"Anthropic的联合创始人Tom Brown表示,"我们是全球为数不多的在深度学习研究领域建立基础模型的组织之一。这种模型高度复杂,为了开发和训练先进的模型,我们需要在庞大的GPU集群中有效地分布这些模型。我们正在广泛应用Amazon EC2 P4实例,我们更为即将发布的P5实例感到兴奋。预计P5实例会提供比P4d实例更显著的性价比优势,它们可以满足构建下一代大语言模型和相关产品的大规模需求。"

Cohere是自然语言AI领域的先驱,它帮助开发者和企业使用世界领先的自然语言处理(NLP)技术构建出色的产品,同时确保数据的隐私和安全。"Cohere不遗余力地帮助企业利用自然语言AI的强大功能,以自然直观的方式探索、生成和搜索信息,并做出反应,并将产品部署在多云的数据环境中,为客户提供最佳体验。"Cohere首席执行官Aidan Gomez表示,"基于英伟达H100的Amazon EC2 P5实例将释放企业潜能,利用计算能力以及Cohere最先进的LLM和生成式AI能力,更快地开发产品、拓展业务和扩大规模。"

Hugging Face的使命是普及优秀的机器学习。"作为发展最迅猛的机器学习开源社区,我们如今在面向NLP、计算机视觉、生物学和强化学习等领域的平台上提供逾15万个预训练模型和2.5万个数据集。"Hugging Face首席技术官兼联合创始人Julien Chaumond表示,"鉴于大语言模型和生成式AI取得了显著进步,我们正与亚马逊云科技合作,以构建和贡献未来的开源模型。我们希望在结合了EFA的UltraCluster集群中通过大规模Amazon SageMaker使用Amazon EC2 P5实例,加快为所有客户交付新的基础AI模型。"

如今,全球超过4.5亿人通过Pinterest寻找视觉灵感,以购买符合自己品味的个性化产品、寻求线下创意,并发现最有才华的创作者。"我们在用例中广泛使用深度学习技术,比如对上传到我们平台上的数十亿张照片进行标记和分类,以及让用户获得从灵感到付诸行动的视觉搜索能力。"Pinterest首席架构师David Chaiken表示,"我们使用P3和最新的P4d等Amazon GPU实例构建和部署了这些应用场景。我们希望使用由H100 GPU、EFA和Ultracluster加持的Amazon EC2 P5实例,加快产品开发,为我们的客户提供共情式AI(Empathetic AI)体验。"

作为多模态、开源AI模型开发和部署领域的领导者,Stability AI与公共和私营部门的合作伙伴合作,将这种下一代基础架构提供给全球受众。"Stability AI的目标是最大限度地提高现代AI的普及性,以激发全球创造力和创新性。"Stability AI首席执行官Emad Mostaque表示,"我们于2021年开始与亚马逊云科技合作,使用Amazon EC2 P4d实例构建了一个潜在的文本到图像扩散模型Stable Diffusion,我们将该模型部署在大规模环境下,将模型训练时间从数月缩短到数周。当致力于开发下一代开源生成式AI模型并扩展到新模型时,我们很高兴能使用第二代EC2 UltraCluster中的Amazon EC2 P5实例。我们预计P5实例会进一步将我们的模型训练时间缩短4倍,从而使我们能够以更低的成本更快地提供突破性的AI。"

为可扩展、高效的AI采用新的服务器设计

在H100发布之前,英伟达和在热力、电气机械领域拥有专业知识的亚马逊云科技工程团队合作设计了服务器,以利用GPU提供大规模AI,重点关注亚马逊云科技基础设施的能源效率。在某些AI工作负载下,GPU的能效通常是CPU的20倍,对于LLM而言,H100的能效比CPU高300倍。

双方的合作包括开发系统散热设计、集成式安全和系统管理、与Amazon Nitro硬件加速虚拟机管理程序一起实现安全性,以及针对亚马逊云科技定制EFA网络结构的英伟达GPUDirect™优化技术。

在亚马逊云科技和英伟达专注于服务器优化工作的基础上,两家公司现已开始合作开发未来的服务器设计,以借助新一代系统设计、冷却技术和网络可扩展性提高扩展效率。

审核编辑黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    29765

    浏览量

    268046
  • 人工智能
    +关注

    关注

    1789

    文章

    46630

    浏览量

    236972
  • 机器学习
    +关注

    关注

    66

    文章

    8346

    浏览量

    132289
  • 英伟达
    +关注

    关注

    22

    文章

    3720

    浏览量

    90652
  • 亚马逊
    +关注

    关注

    8

    文章

    2618

    浏览量

    83120
收藏 人收藏

    评论

    相关推荐

    英伟与信实集团携手,共筑印度AI基础设施

    近日,英伟宣布与印度第二大财团、亚洲首富安巴尼旗下的信实集团达成合作伙伴关系,共同致力于在印度建设人工智能(AI)基础设施,并推动AI技术在全球人口最多的国家得到广泛应用。 这合作
    的头像 发表于 10-29 15:21 379次阅读

    英伟与信实集团携手在印度建设AI基础设施

    英伟(NVIDIA)近日宣布了项重大合作计划,与印度第二大财团、亚洲首富安巴尼旗下的信实集团(Reliance Industries)建立合作伙伴关系,旨在共同推动印度的人工智能(AI)
    的头像 发表于 10-28 16:08 189次阅读

    日立与英伟携手打造铁路安全检测系统

    日立制作所近日宣布,已携手美国英伟公司成功研发出套先进的铁路基础设施安全检测系统。该系统专为铁路轨道、架线及信号器等关键
    的头像 发表于 09-25 14:19 235次阅读

    IaaS+on+DPU(IoD)+下一代高性能算力底座技术白皮书

    的技术标准也在不断完善。从此 DPU 不再是行业巨头的“专享”技术,基础设施计算相关产业参与者都在寻求种简单高效的方法,将 DPU 的优势运用到自身业务系统之中,例如 Red Hat
    发表于 07-24 15:32

    ASMPT与美光携手开发下一代HBM4键合设备

    在半导体制造技术的持续演进中,韩国后端设备制造商ASMPT与全球知名的内存解决方案提供商美光公司近日宣布了项重要的合作。据悉,ASMPT已向美光提供了专用于高带宽内存(HBM)生产的演示热压(TC)键合机,双方将携手开发下一代
    的头像 发表于 07-01 11:04 738次阅读

    德州仪器与台电子合作开发下一代电动汽车车载充电和电源解决方案

    近日,德州仪器 (TI) 宣布与全球电源和能源管理制造商台电子 (Delta Electronics) 达成长期合作,共同开发下一代电动汽车 (EV) 车载充电和电源解决方案。此次合作将利用两家
    的头像 发表于 06-26 14:39 512次阅读

    亚马逊AWS称未停止任何英伟芯片订单

    针对近期关于“亚马逊计算部门暂停订购英伟Hopper芯片”的报道,亚马逊AWS部门近日给出了明确回应。AWS发言人表示,公司并未停止任何
    的头像 发表于 05-22 11:39 495次阅读

    丰田、日产和本田将合作开发下一代汽车的AI和芯片

    丰田、日产和本田等日本主要汽车制造商确实计划联手开发下一代汽车的软件,包括在生成式人工智能(AI)和半导体(芯片)等领域进行合作。
    的头像 发表于 05-20 10:25 921次阅读

    日本车企联手开发下一代汽车软件

    丰田、日产、本田等日本汽车制造商宣布将共同开发下一代汽车软件,结合各自在AI和半导体领域的优势。随着汽车行业数字化转型的推进,日本经济产业省即将公布的发展路线图强调了汽车制造商间的合作重要性,尤其聚焦在软件定义汽车(SDV)上。
    的头像 发表于 05-17 11:14 503次阅读

    DPU技术赋能下一代AI算力基础设施

    4月19日,在以“重构世界 奔赴未来”为主题的2024中国生成式AI大会上,中科驭数作为DPU新型算力基础设施代表,受邀出席了中国智算中心创新论坛,发表了题为《以网络为中心的AI算力底座构建之路》主题演讲,勾勒出在通往AGI之路上,DPU技术赋能下一代AI算力
    的头像 发表于 04-20 11:31 785次阅读

    三星电子已开始与Naver合作开发下一代AI芯片Mach-2

    三星电子与Naver合作开发下一代AI芯片Mach-2,这举措标志着两家公司在人工智能领域的深度合作进步加强。
    的头像 发表于 04-18 14:40 639次阅读

    英伟拟将收购AI基础设施虚拟化初创企业Run:ai

    据外媒最新报道,英伟公司正考虑收购家名为Run:ai的AI基础设施虚拟化初创企业,双方的交易金额最高可能达到惊人的10亿美元。
    的头像 发表于 03-22 10:47 628次阅读

    新思科技携手英伟:基于加速计算、生成式AI和Omniverse释放下一代EDA潜能

    将双方数十年的合作深入扩展到新思科技EDA全套技术栈 摘要: 新思科技携手英伟,将其领先的AI驱动型电子设计自动化(EDA)全套技术栈部署于英伟
    发表于 03-20 13:43 217次阅读
    新思科技<b class='flag-5'>携手</b><b class='flag-5'>英伟</b><b class='flag-5'>达</b>:基于加速计算、生成式AI和Omniverse释放<b class='flag-5'>下一代</b>EDA潜能

    英伟下一代AI芯片

    根据英伟(Nvidia)的路线图,它将推出其下一代black well架构很快。该公司总是先推出个新的架构与数据中心产品,然后在几个月后公布削减的GeForce版本,所以这也是这次
    的头像 发表于 03-08 10:28 821次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b>的<b class='flag-5'>下一代</b>AI芯片

    英伟亚马逊联手打造了台拥有16384个超级芯片的超级计算机

    ,将下一代英伟Grace Hopper Superchips 与亚马逊科技的 EFA 强大网络、EC2 UltraClusters 的超
    的头像 发表于 12-06 16:01 708次阅读