0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Amazon EC2 Inf2实例正式可用 助力低成本、高性能的生成式AI推理

全球TMT 来源:全球TMT 作者:全球TMT 2023-04-21 14:33 次阅读

深度学习(DL)的创新,特别是大语言模型(LLM)的快速发展,已经席卷了整个行业。深度学习模型的参数已从数百万增加到数十亿,为我们呈现了越来越多激动人心的新能力。它们正在催生新的应用,如生成式AI或医疗保健和生命科学的高级研究。亚马逊科技一直在芯片、服务器、数据中心互连和软件服务等多个方面创新,加速深度学习工作负载的大规模应用。

亚马逊云科技在2022 re:Invent 全球大会上,以其最新的自研机器学习推理芯片Amazon Inferentia2为基础,发布了AmazonEC2 Inf2系列实例的预览版。AmazonEC2 Inf2类型实例专门针对全球大规模运行高性能深度学习推理应用程序,为部署在EC2上的生成式AI应用提供最佳性价比,其中包含GPT-J或开放式预训练Transformer(OPT)语言模型。

现在,亚马逊云科技宣布Amazon EC2 Inf2实例正式可用。

Inf2实例是AmazonEC2上首个推理优化的实例,支持可扩展的分布式推理,可实现多个inferentia2芯片之间的超高速连接。用户可以在Inf2实例中跨多个芯片高效部署具有数千亿个参数的模型。与Amazon EC2 Inf1实例相比,Inf2实例的吞吐量提高4倍,延迟降低10倍。

新Inf2实例的亮点

Inf2实例目前有四种可用实例类型,最高扩展至12个Amazon Inferentia2芯片和192个vCPU配置。在BF16或FP16数据类型下,它们能够提供2.3 petaFLOPS的综合计算能力,并具有芯片间超高速NeuronLink互连的功能。NeuronLink可在多个Inferentia2芯片上扩展大模型,避免通信瓶颈,实现更高性能的推理。

每个Inferentia2芯片内有32 GB的高带宽内存(HBM),最高配置的Inf2 实例可提供高达384 GB的共享加速器内存,总内存带宽为9.8 TB/s。对于需要大内存支持的的大型语言模型而言,这种带宽对于支持模型推理尤为重要。

基于专门为深度学习工作负载而构建的Amazon Inferentia2芯片的Amazon EC2 Inf2,相比同类实例,单位功率性能高出了50%。

AmazonInferentia2的创新之处

与亚马逊自研机器学习训练芯片Amazon Trainium类似,每个Amazon Inferentia2芯片都配有两个经过优化的NeuronCore-v2引擎、高带宽内存(HBM)堆栈和专用的集体计算引擎,以便在执行多加速器推理时实现计算与通信的并行。

每个NeuronCore-v2都有专为深度学习算法构建的标量、向量和张量三种引擎,其中张量引擎针对矩阵运算进行了优化;标量引擎针对ReLU(修正线性单元)函数等元素性操作进行了优化;向量引擎针对批处理规范化或池化等非元素向量运算进行了优化。

以下是Amazon Inferentia2芯片和服务器硬件其他创新总结:

数据类型——Amazon Inferentia2 支持多种数据类型,包括FP32、TF32、BF16、FP16 和UINT8,用户可以为工作负载选择最合适的数据类型。它还支持新的可配置FP8(cFP8)数据类型,该数据类型特别适用于大模型,因为它减少了模型的内存占用和I/O 要求。

动态执行和动态输入形状——Amazon Inferentia2 具有支持动态执行的嵌入式通用数字信号处理器DSP),因此无需在主机上展开或执行控制流运算符。Amazon Inferentia2 还支持动态输入形状,这些形状对于具有未知输入张量大小的模型(例如处理文本的模型)至关重要。

自定义运算符——Amazon Inferentia2支持用C++语言编写的自定义运算符。Neuron自定义C++运算符使用户能够编写在NeuronCore上天然运行的C++自定义运算符。用户可以使用标准的PyTorch自定义运算符编程接口将CPU 自定义运算符迁移到Neuron 并实现新的实验运算符,所有这些都无需对NeuronCore 硬件有任何深入了解。

NeuronLink v2——Inf2实例是AmazonEC2类型中首个将NeuronLink V2 用于推理优化的实例,NeuronLink v2 为Inferentia2芯片间的提供超高速连接,加强分布式推理性能。NeuronLink v2使用all-reduce等聚合通信(CC)运算符,将高性能推理管道扩展到所有的推理芯片上。

新Inf2实例现已可用

用户可在亚马逊云科技美东(俄亥俄州)和美东(北弗吉尼亚州)地区启动Inf2实例,以按需、预留和竞价实例或Savings Plan方式调用。用户仅需为其实际使用的服务付费。如需了解更多相关信息,请访问Amazon EC2定价网站。

Inf2实例可使用亚马逊云科技深度学习镜像进行部署,并可通过Amazon SageMaker、Amazon Elastic Kubernetes Service(Amazon EKS)、Amazon Elastic Container Service(Amazon ECS)和Amazon ParallelCluster等托管服务调用。

如需了解更多信息,请访问Amazon EC2 Inf2实例页面,并将相关反馈发送给Amazon re:Post for EC2;或垂询您的AmazonSupport联系人。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 半导体
    +关注

    关注

    334

    文章

    27432

    浏览量

    219269
  • AI
    AI
    +关注

    关注

    87

    文章

    30994

    浏览量

    269282
  • 亚马逊
    +关注

    关注

    8

    文章

    2668

    浏览量

    83405
  • 深度学习
    +关注

    关注

    73

    文章

    5504

    浏览量

    121221
  • 生成式AI
    +关注

    关注

    0

    文章

    505

    浏览量

    481
收藏 人收藏

    评论

    相关推荐

    NeuroBlade携手亚马逊EC2 F2实例,加速数据分析

    数据分析加速领域的领航者NeuroBlade,近日宣布与亚马逊云科技(AWS)最新推出的Amazon Elastic Compute Cloud (Amazon EC2) F2
    的头像 发表于 12-31 11:37 166次阅读

    亚马逊云科技发布Amazon Trainium2实例

    的发布,标志着亚马逊云科技在人工智能训练和部署领域迈出了重要一步。 为了满足用户对高性能和高性价比的双重需求,亚马逊云科技还推出了Amazon EC2 Trn2 UltraServer
    的头像 发表于 12-27 14:57 217次阅读

    亚马逊云科技发布Amazon Bedrock新功能

    近日,亚马逊云科技宣布了一项重要更新——为其完全托管的Amazon Bedrock服务增添了多项创新功能。Amazon Bedrock旨在通过高性能基础模型,助力用户轻松构建并扩展
    的头像 发表于 12-25 15:52 120次阅读

    Amazon Bedrock全新升级,引领生成AI应用新纪元

    近日,亚马逊云科技宣布了对Amazon Bedrock的重大升级,推出了三项创新功能,进一步巩固了其在生成人工智能领域的领先地位。 Amazon Bedrock作为一项完全托管的服务
    的头像 发表于 12-24 11:43 323次阅读

    Amazon Bedrock全新升级,新增业界领先的AI防护、新智能体功能和模型定制能力

    Amazon Bedrock新增自动化推理检查、多智能体协作和模型蒸馏三项新功能,基于坚实的企业级功能基础构建,助力客户更快地从概念验证过渡到生产级的生成
    的头像 发表于 12-12 15:56 142次阅读

    Amazon Bedrock推出多个新模型和全新强大的推理和数据处理功能

    :Invent全球大会上,宣布推出Amazon Bedrock的多项创新功能。Amazon Bedrock是亚马逊云科技一项完全托管的服务,旨在利用高性能基础模型构建和扩展生成
    的头像 发表于 12-07 19:31 621次阅读
    <b class='flag-5'>Amazon</b> Bedrock推出多个新模型和全新强大的<b class='flag-5'>推理</b>和数据处理功能

    亚马逊云科技宣布Amazon Trainium2实例正式可用

    的训练和推理 北京2024年12月5日 /美通社/ -- 亚马逊云科技在2024 re:Invent全球大会上,宣布基于Amazon Trainium2Amazon Elastic
    的头像 发表于 12-06 09:15 173次阅读
    亚马逊云科技宣布<b class='flag-5'>Amazon</b> Trainium<b class='flag-5'>2</b><b class='flag-5'>实例</b>正式<b class='flag-5'>可用</b>

    亚马逊云科技宣布Amazon EC2 P5e实例正式可用 由英伟达H200 GPU提供支持

    1.7倍,GPU内存宽带提升1.5倍。Amazon EC2 P5e非常适用于复杂的大型语言模型(LLM)和多模态基础模型(FM)的训练、微调和推理,用于支持最苛刻和计算密集型的生成
    的头像 发表于 09-19 16:16 493次阅读

    AMD助力HyperAccel开发全新AI推理服务器

    提高成本效率。HyperAccel 针对新兴的生成 AI 应用提供超级加速的芯片 IP/解决方案。HyperAccel 已经打造出一个快速、高效且
    的头像 发表于 09-18 09:37 374次阅读
    AMD<b class='flag-5'>助力</b>HyperAccel开发全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服务器

    Mistral Large 2现已在Amazon Bedrock中正式可用

    北京2024年7月25日 /美通社/ -- 亚马逊云科技宣布,Mistral AI的Mistral Large 2(24.07)基础模型(FM)现已在Amazon Bedrock中正式可用
    的头像 发表于 07-26 08:07 344次阅读

    亚马逊云科技宣布基于自研Amazon Graviton4的Amazon EC2 R8g实例正式可用

    ) R8g实例现已正式可用Amazon EC2 R8g实例与基于Amazon Graviton
    的头像 发表于 07-15 16:09 389次阅读

    基于瑞萨RZ/V2H AI微处理器的解决方案:高性能视觉AI系统

    复杂的实时物体识别及推理,同时功耗可与传统的嵌入MPU相媲美,无需冷却风扇。这里介绍基于RZ/V2H的解决方案:高性能视觉AI系统。
    发表于 07-02 18:36 527次阅读
    基于瑞萨RZ/V<b class='flag-5'>2</b>H <b class='flag-5'>AI</b>微处理器的解决方案:<b class='flag-5'>高性能</b>视觉<b class='flag-5'>AI</b>系统

    亚马逊云科技宣布生成AI助手Amazon Q正式可用

    亚马逊云科技近日宣布全新服务Amazon Q正式开放使用,该服务作为一款前沿的生成人工智能(AI)助手,专为加速软件开发并最大化公司内部数据价值而设计。
    的头像 发表于 05-09 10:58 533次阅读

    Mistral Large模型现已在Amazon Bedrock上正式可用

    的 Mistral 7B 和 Mixtral 8x7B模型。今天,Mistral AI最新且最前沿的大语言模型(LLM)Mistral Large又在Amazon Bedrock上正式可用,这些将为客户构建
    的头像 发表于 04-08 16:26 564次阅读

    企业组网如何兼顾低成本高性能

    在数字化浪潮席卷全球的今天,企业的网络需求变得愈加复杂和多样化。面对激烈的市场竞争,企业不得不寻求一种既能降低成本又能保证高性能的网络解决方案。传统组网方式虽然稳定可靠,但昂贵的硬件投入和升级成本
    的头像 发表于 02-26 14:59 402次阅读