Amazon EC2 Inf2实例正式可用助力低成本、高性能的生成式AI推理-电子发烧友网

深度学习（DL）的创新，特别是大语言模型（LLM）的快速发展，已经席卷了整个行业。深度学习模型的参数已从数百万增加到数十亿，为我们呈现了越来越多激动人心的新能力。它们正在催生新的应用，如生成式AI或医疗保健和生命科学的高级研究。亚马逊云科技一直在芯片、服务器、数据中心互连和软件服务等多个方面创新，加速深度学习工作负载的大规模应用。

亚马逊云科技在2022 re:Invent 全球大会上，以其最新的自研机器学习推理芯片Amazon Inferentia2为基础，发布了AmazonEC2 Inf2系列实例的预览版。AmazonEC2 Inf2类型实例专门针对全球大规模运行高性能深度学习推理应用程序，为部署在EC2上的生成式AI应用提供最佳性价比，其中包含GPT-J或开放式预训练Transformer（OPT）语言模型。

现在，亚马逊云科技宣布Amazon EC2 Inf2实例正式可用。

Inf2实例是AmazonEC2上首个推理优化的实例，支持可扩展的分布式推理，可实现多个inferentia2芯片之间的超高速连接。用户可以在Inf2实例中跨多个芯片高效部署具有数千亿个参数的模型。与Amazon EC2 Inf1实例相比，Inf2实例的吞吐量提高4倍，延迟降低10倍。

新Inf2实例的亮点

Inf2实例目前有四种可用实例类型，最高扩展至12个Amazon Inferentia2芯片和192个vCPU配置。在BF16或FP16数据类型下，它们能够提供2.3 petaFLOPS的综合计算能力，并具有芯片间超高速NeuronLink互连的功能。NeuronLink可在多个Inferentia2芯片上扩展大模型，避免通信瓶颈，实现更高性能的推理。

每个Inferentia2芯片内有32 GB的高带宽内存（HBM），最高配置的Inf2 实例可提供高达384 GB的共享加速器内存，总内存带宽为9.8 TB/s。对于需要大内存支持的的大型语言模型而言，这种带宽对于支持模型推理尤为重要。

基于专门为深度学习工作负载而构建的Amazon Inferentia2芯片的Amazon EC2 Inf2，相比同类实例，单位功率性能高出了50%。

AmazonInferentia2的创新之处

与亚马逊自研机器学习训练芯片Amazon Trainium类似，每个Amazon Inferentia2芯片都配有两个经过优化的NeuronCore-v2引擎、高带宽内存（HBM）堆栈和专用的集体计算引擎，以便在执行多加速器推理时实现计算与通信的并行。

每个NeuronCore-v2都有专为深度学习算法构建的标量、向量和张量三种引擎，其中张量引擎针对矩阵运算进行了优化；标量引擎针对ReLU（修正线性单元）函数等元素性操作进行了优化；向量引擎针对批处理规范化或池化等非元素向量运算进行了优化。

以下是Amazon Inferentia2芯片和服务器硬件其他创新总结：

数据类型——Amazon Inferentia2 支持多种数据类型，包括FP32、TF32、BF16、FP16 和UINT8，用户可以为工作负载选择最合适的数据类型。它还支持新的可配置FP8（cFP8）数据类型，该数据类型特别适用于大模型，因为它减少了模型的内存占用和I/O 要求。

动态执行和动态输入形状——Amazon Inferentia2 具有支持动态执行的嵌入式通用数字信号处理器（DSP），因此无需在主机上展开或执行控制流运算符。Amazon Inferentia2 还支持动态输入形状，这些形状对于具有未知输入张量大小的模型（例如处理文本的模型）至关重要。

自定义运算符——Amazon Inferentia2支持用C++语言编写的自定义运算符。Neuron自定义C++运算符使用户能够编写在NeuronCore上天然运行的C++自定义运算符。用户可以使用标准的PyTorch自定义运算符编程接口将CPU 自定义运算符迁移到Neuron 并实现新的实验运算符，所有这些都无需对NeuronCore 硬件有任何深入了解。

NeuronLink v2——Inf2实例是AmazonEC2类型中首个将NeuronLink V2 用于推理优化的实例，NeuronLink v2 为Inferentia2芯片间的提供超高速连接，加强分布式推理性能。NeuronLink v2使用all-reduce等聚合通信（CC）运算符，将高性能推理管道扩展到所有的推理芯片上。

新Inf2实例现已可用

用户可在亚马逊云科技美东（俄亥俄州）和美东（北弗吉尼亚州）地区启动Inf2实例，以按需、预留和竞价实例或Savings Plan方式调用。用户仅需为其实际使用的服务付费。如需了解更多相关信息，请访问Amazon EC2定价网站。

Inf2实例可使用亚马逊云科技深度学习镜像进行部署，并可通过Amazon SageMaker、Amazon Elastic Kubernetes Service（Amazon EKS）、Amazon Elastic Container Service（Amazon ECS）和Amazon ParallelCluster等托管服务调用。

如需了解更多信息，请访问Amazon EC2 Inf2实例页面，并将相关反馈发送给Amazon re:Post for EC2；或垂询您的AmazonSupport联系人。

审核编辑：汤梓红

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

半导体

半导体

+关注

关注
334

文章
27432

浏览量
219269
AI

AI

+关注

关注
87

文章
30994

浏览量
269282
亚马逊

亚马逊

+关注

关注
8

文章
2668

浏览量
83405
深度学习

深度学习

+关注

关注
73

文章
5504

浏览量
121221
生成式AI

生成式AI

+关注

关注
0

文章
505

浏览量
481

NeuroBlade携手亚马逊EC2 F2实例，加速数据分析

数据分析加速领域的领航者NeuroBlade，近日宣布与亚马逊云科技(AWS)最新推出的Amazon Elastic Compute Cloud (Amazon EC2) F2

发表于 12-31 11:37 •166次阅读

亚马逊云科技发布Amazon Trainium2实例

的发布，标志着亚马逊云科技在人工智能训练和部署领域迈出了重要一步。为了满足用户对高性能和高性价比的双重需求，亚马逊云科技还推出了Amazon EC2 Trn2 UltraServer

发表于 12-27 14:57 •217次阅读

亚马逊云科技发布Amazon Bedrock新功能

近日，亚马逊云科技宣布了一项重要更新——为其完全托管的Amazon Bedrock服务增添了多项创新功能。Amazon Bedrock旨在通过高性能基础模型，助力用户轻松构建并扩展

发表于 12-25 15:52 •120次阅读

Amazon Bedrock全新升级，引领生成式AI应用新纪元

近日，亚马逊云科技宣布了对Amazon Bedrock的重大升级，推出了三项创新功能，进一步巩固了其在生成式人工智能领域的领先地位。 Amazon Bedrock作为一项完全托管的服务

发表于 12-24 11:43 •323次阅读

Amazon Bedrock全新升级，新增业界领先的AI防护、新智能体功能和模型定制能力

Amazon Bedrock新增自动化推理检查、多智能体协作和模型蒸馏三项新功能，基于坚实的企业级功能基础构建，助力客户更快地从概念验证过渡到生产级的生成

发表于 12-12 15:56 •142次阅读

Amazon Bedrock推出多个新模型和全新强大的推理和数据处理功能

:Invent全球大会上，宣布推出Amazon Bedrock的多项创新功能。Amazon Bedrock是亚马逊云科技一项完全托管的服务，旨在利用高性能基础模型构建和扩展生成

发表于 12-07 19:31 •621次阅读

<b class='flag-5'>Amazon</b> Bedrock推出多个新模型和全新强大的<b class='flag-5'>推理</b>和数据处理功能

亚马逊云科技宣布Amazon Trainium2实例正式可用

的训练和推理北京2024年12月5日 /美通社/ -- 亚马逊云科技在2024 re:Invent全球大会上，宣布基于Amazon Trainium2的Amazon Elastic

发表于 12-06 09:15 •173次阅读

亚马逊云科技宣布<b class='flag-5'>Amazon</b> Trainium<b class='flag-5'>2</b><b class='flag-5'>实例</b>正式<b class='flag-5'>可用</b>

亚马逊云科技宣布Amazon EC2 P5e实例正式可用由英伟达H200 GPU提供支持

1.7倍，GPU内存宽带提升1.5倍。Amazon EC2 P5e非常适用于复杂的大型语言模型(LLM)和多模态基础模型(FM)的训练、微调和推理，用于支持最苛刻和计算密集型的生成

发表于 09-19 16:16 •493次阅读

AMD助力HyperAccel开发全新AI推理服务器

提高成本效率。HyperAccel 针对新兴的生成式 AI 应用提供超级加速的芯片 IP/解决方案。HyperAccel 已经打造出一个快速、高效且

发表于 09-18 09:37 •374次阅读

Mistral Large 2现已在Amazon Bedrock中正式可用

北京2024年7月25日 /美通社/ -- 亚马逊云科技宣布，Mistral AI的Mistral Large 2（24.07）基础模型（FM）现已在Amazon Bedrock中正式可用

发表于 07-26 08:07 •344次阅读

亚马逊云科技宣布基于自研Amazon Graviton4的Amazon EC2 R8g实例正式可用

) R8g实例现已正式可用。Amazon EC2 R8g实例与基于Amazon Graviton

发表于 07-15 16:09 •389次阅读

基于瑞萨RZ/V2H AI微处理器的解决方案：高性能视觉AI系统

复杂的实时物体识别及推理，同时功耗可与传统的嵌入式MPU相媲美，无需冷却风扇。这里介绍基于RZ/V2H的解决方案：高性能视觉AI系统。

发表于 07-02 18:36 •527次阅读

亚马逊云科技宣布生成式AI助手Amazon Q正式可用

亚马逊云科技近日宣布全新服务Amazon Q正式开放使用，该服务作为一款前沿的生成式人工智能（AI）助手，专为加速软件开发并最大化公司内部数据价值而设计。

发表于 05-09 10:58 •533次阅读

Mistral Large模型现已在Amazon Bedrock上正式可用

的 Mistral 7B 和 Mixtral 8x7B模型。今天，Mistral AI最新且最前沿的大语言模型（LLM）Mistral Large又在Amazon Bedrock上正式可用，这些将为客户构建

发表于 04-08 16:26 •564次阅读

企业组网如何兼顾低成本与高性能？

在数字化浪潮席卷全球的今天，企业的网络需求变得愈加复杂和多样化。面对激烈的市场竞争，企业不得不寻求一种既能降低成本又能保证高性能的网络解决方案。传统组网方式虽然稳定可靠，但昂贵的硬件投入和升级成本让

发表于 02-26 14:59 •402次阅读

搜索历史

Amazon EC2 Inf2实例正式可用助力低成本、高性能的生成式AI推理

评论

NeuroBlade携手亚马逊EC2 F2实例，加速数据分析

亚马逊云科技发布Amazon Trainium2实例

亚马逊云科技发布Amazon Bedrock新功能

Amazon Bedrock全新升级，引领生成式AI应用新纪元

Amazon Bedrock全新升级，新增业界领先的AI防护、新智能体功能和模型定制能力

Amazon Bedrock推出多个新模型和全新强大的推理和数据处理功能

亚马逊云科技宣布Amazon Trainium2实例正式可用

亚马逊云科技宣布Amazon EC2 P5e实例正式可用由英伟达H200 GPU提供支持

AMD助力HyperAccel开发全新AI推理服务器

Mistral Large 2现已在Amazon Bedrock中正式可用

亚马逊云科技宣布基于自研Amazon Graviton4的Amazon EC2 R8g实例正式可用

基于瑞萨RZ/V2H AI微处理器的解决方案：高性能视觉AI系统

亚马逊云科技宣布生成式AI助手Amazon Q正式可用

Mistral Large模型现已在Amazon Bedrock上正式可用

企业组网如何兼顾低成本与高性能？

搜索历史

Amazon EC2 Inf2实例正式可用 助力低成本、高性能的生成式AI推理

评论

Amazon EC2 Inf2实例正式可用助力低成本、高性能的生成式AI推理