0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Xilinx公司Versal AI Core系列产品实现突破性的AI推断吞吐量和性能

我快闭嘴 来源:半导体行业观察 作者:半导体行业观察 2020-09-26 11:49 次阅读

在2018年初出任Xilinx CEO之后,Victor Peng就给FPGA巨头定下了三大战略,分别是数据中心加速、加速主流市场的发展以及推出 ACAP(Adaptive Compute Acceleration Platform, 自适应计算加速平台)。当中ACAP更是他们面向未来的重中之重。按照Xilinx的说法,这是继他们在1984年发明FPGA之后,又一次颠覆性的发明成就。

Victor Peng在中国参加媒体会甚至表示,如果你在一个行业内达到了一种高度,你就有资格玩下一关的游戏。现在Xilinx的ACAP已经上了一个新台阶,接下来我们要和英伟达英特尔处理器展开新竞争。

从最近发布的数据看来,Xilinx的ACAP也的确在一步步实现公司对它寄予的厚望。

不止FPGA,ACAP初战告捷

所谓ACAP,并不是FPGA,正如Victor Peng所说,这是一个整合了了硬件编程逻辑单元、软件可编程处理器、以及软件可编程加速引擎的计算平台产品。作为一种高度集成的多核异构计算平台,ACAP可在软硬件两个层面随时进行更改,从而动态地适应数据中心、汽车、5G 无线、有线以及国防市场的广泛应用与工作负载需求。而Versal 则是ACAP的首款平台。

据了解,Versal的体系架构从构建伊始即可支持软件可编程,拥有高度灵活的、每秒传输速率高达数兆比特的片上网络 (NoC)。NoC能无缝集成所有引擎和关键接口,使得该平台在启动时即可使用平台的各项资源,并且方便软件开发者、数据科学家和硬件开发者等都能轻松进行编程。通过一系列工具、软件、库、IP、中间件和固件,Versal ACAP让使用者能随时通过业界标准设计流程开发各种定制化的加速计算解决方案。资料显示,Versal包括了几个系列, AI Core和Prime 则是最先推出的两个产品线,并已经开始发货。

据介绍,Versal AI Core 系列在整个Versal产品系列中提供了最高计算性能和最低时延,并通过 AI 引擎实现了突破性的 AI 推断吞吐量和性能。该系列针对云端、网络和自动驾驶技术进行优化,提供了业界最广泛的 AI 和工作负载加速功能。Versal Prime 系列的设计则广泛适用于各种应用,并针对各种工作负载的连接性和在线加速进行了优化。

“自发货以来,Versal AI Core和Versal Prime现在已经是有几百家客户,反响非常好,客户甚至希望我们能够加速其生产”,赛灵思高端ACAP与FPGA高级产品线经理Mike Thompson告诉记者。

再下一城,Versal Premium为数据中心加速

在Versal AI Core和Versal Prime两个系列首战告捷之后,Xilinx又马不停蹄地在日前推出了Versal ACAP的高端系列Versal Premium,旨在帮助超大规模数据中心用户为多元化的数据中心工作负载实现最高加速水平。这一方面体现了Xilinx的有的放矢;另一方面,也再一次显露出了这家用于革自己命企业的底气。

众所周知,在过去几年里,随着AI、5G和物联网等多个新兴应用的崛起,数据成为了各大领域关注的重点。而庞大数据量的传输也给做相关支撑的基础设施带来严峻的挑战。如何提高高带宽、高性能、高可靠性和安全的方案,就成为了相关供应商需要考虑的重要问题。而Xilinx 的Versal Premium就是为了解决这些问题而生的。

Mike Thompson指出,Versal Premium是在Versal Prime的基础上,集成更多的连接和安全功能而打造的产品。从他的介绍我们得知,Versal Premium集成了PCIe Gen5、DMA和CCIX;同时还加上了CXL的支持;另外,最先进的112G PAM4收发器和可以做以太网即时连接的600G Interlaken硬核也是这个新旗舰的另一个亮点。在安全方面,Xilinx还为这款产品加入了400G加密引擎用于加密。是因为这些多样化异构集成,Xilinx让这个产品能给客户带来卓越的效果。

首先,通过软IP和硬IP的配置,能提供功耗优化的带宽密度。

以硬IP连接为例,它不但能够支持多速率以太网,还可以实现如网络遥测、虚拟化和数据包处理等高价值功能。在这些硬IP的支持下,不但可以支持更多标准,还能够以最小占板空间提供高达 5Tb/s 的吞吐量,同时能够让产品满足当前主流的100G和400G光通信需求,还提供了面向未来的800G连接支持,让客户可针对未来做更多提前布局。

Versal Premium 系列还提供了高达 9Tb/s 的可扩展、自适应串行带宽。具体方法是将 112G PAM4 收发器与集成的网络功能模块用于核心网、城域网和数据中心互联( DCI )基础设施,将每端口带宽密度提高两倍,并降低时延高达 50%。

其次,Versal Premium可以帮助客户实现800G DCI,但功耗不到100瓦。在与FPGA方案相比时,前者的功耗降低一半以上,占地面积也降低一半,功耗则提升了60%。

第三,Versal Premium集成的600G Interlaken 和400G高速加密引擎能协助打造更快速和安全的网络。如下图所示,这个产品可以以1.8Tb/s的速度现用Interlaken连接,高速加密引擎也可提供高达 1.6Tb/s 的加密线路速率吞吐量。

为了当前计算加速存储器架构上的瓶颈,Xilinx还给Versal Premium集成了1G片上存储器带宽,让其可以和计算引擎进行非常紧密地吻合,提高它的性能,降低功耗和时延。据Xilinx方面介绍,Versal Premium的存储器带宽为123TB/s,这个数字是英伟达Tesla V100的9倍,与Tesla T4相比,更是快乐25倍。“这让我们的产品解锁了GPU无法企及的性能”,Xilinx方面强调。这样的存储器带宽与异构引擎的搭配,让Versal Premium整体也提供了突破性的性能。

除了硬件之外,Xilinx还为这系列产品提供一个非常丰富和强大的软件生态,搭配其Vitis软件平台,使得软件开发者可以使用他们最熟悉的C、C++Python语言对硬件进行开发,另外数据科学家和算法开发人员也可以使用他们平时最熟悉的框架,在这个硬件上进行研究。Xilinx希望硬件开发者、软件开发者和数据开发者都能加入到其生态中来。

此外,针对当前网络应用的需求,Xilinx还给Versal Premium带来了网络异常检测AI和配置与网络性能AI。前者的引入让其能够执行入侵检测和恶意软件识别的功能,还拥有了应对新兴威胁的自适应算法,同时供公司还提供了随机森林算法(Random Forest) IP,满足客户的多样化需求;至于后者,则可以自动监测与性能瓶颈纠正,还可以自动配置,最大限度延长正常运行时间(MLP)

Mike Thompson强调。这样的异构集成创新使得ACAP尤其是Versal Premium能够超越摩尔定律的限制,能够专注于下一代高带宽和处理能力。还可以帮助客户大大降低资本支出和运营成本。更重要的一点,正因为使用了这样的设计,Versal Premium拥有了更多的逻辑可以用于定制。

虽然网络加速市场高手林立,但Xilinx的强势杀入,让整个市场又增添了几分变数。
责任编辑:tzh

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19170

    浏览量

    229182
  • FPGA
    +关注

    关注

    1626

    文章

    21675

    浏览量

    601944
  • 数据中心
    +关注

    关注

    16

    文章

    4695

    浏览量

    71964
  • AI
    AI
    +关注

    关注

    87

    文章

    30210

    浏览量

    268448
收藏 人收藏

    评论

    相关推荐

    贸泽开售适用于AI和机器学习应用的 AMD Versal AI Edge VEK280评估套件

    工业、视觉、医疗保健、汽车和科学领域的机器学习 (ML) 推理应用。   AMD Versal AI Edge VEK280套件支持评估和开发基于VersalAI Edge
    发表于 11-21 14:23 75次阅读

    全新NVIDIA NIM微服务实现突破性进展

    全新 NVIDIA NIM 微服务实现突破性进展,可助力气象技术公司开发和部署 AI 模型,实现对降雪、结冰和冰雹的预测。
    的头像 发表于 11-21 10:07 125次阅读

    使用AMD Versal AI引擎加速高性能DSP应用

    AMD Versal AI 引擎使您能够扩展数字信号处理( DSP )算力与面向未来的设计,从而适应当前和下一代计算密集型 DSP 应用。借助 Versal AI 引擎,客户能以更低的
    的头像 发表于 11-20 16:35 215次阅读

    TMS320VC5510 HPI吞吐量和优化

    电子发烧友网站提供《TMS320VC5510 HPI吞吐量和优化.pdf》资料免费下载
    发表于 10-16 09:35 0次下载
    TMS320VC5510 HPI<b class='flag-5'>吞吐量</b>和优化

    TMS320C6474模块吞吐量

    电子发烧友网站提供《TMS320C6474模块吞吐量.pdf》资料免费下载
    发表于 10-15 13:52 0次下载
    TMS320C6474模块<b class='flag-5'>吞吐量</b>

    AI引擎机器学习阵列指南

    AMD Versal AI Core 系列Versal AI Edge
    的头像 发表于 09-18 09:16 312次阅读
    <b class='flag-5'>AI</b>引擎机器学习阵列指南

    求助,关于使用iperf测量mesh节点吞吐量问题求解

    我把esp-mesh-lite的no-route例程和iperf例程合在一起,想测试两个mesh节点间tcp通信的吞吐量,实际过程中一开始流量正常,数秒后客户端发数据这边monitor卡死没有任何
    发表于 07-23 06:59

    AMD发布第二代Versal自适应SoC,AI嵌入式领域再提速

    AMD表示,第二代Versal系列自适应SoC搭载全新的AI引擎,相较上一代Versal AI Edge
    的头像 发表于 04-11 16:07 750次阅读

    AMD Versal SoC刷新边缘AI性能,单芯片方案驱动嵌入式系统

    电子发烧友网报道(文/黄晶晶)边缘AI应用需要更多的高性能计算和算力的支持,AMD的Versal和Zynq系列产品一直支持医疗、交通、智能零售、智能工厂、智能城市等领域的边缘
    的头像 发表于 04-11 09:06 3673次阅读
    AMD <b class='flag-5'>Versal</b> SoC刷新边缘<b class='flag-5'>AI</b><b class='flag-5'>性能</b>,单芯片方案驱动嵌入式系统

    AMD Versal SoC全新升级边缘AI性能,单芯片方案驱动嵌入式系统

    电子发烧友网报道(文/黄晶晶)边缘AI应用需要更多的高性能计算和算力的支持,AMD的Versal和Zynq系列产品一直支持医疗、交通、智能零售、智能工厂、智能城市等领域的边缘
    的头像 发表于 04-09 21:32 1020次阅读
    AMD <b class='flag-5'>Versal</b> SoC全新升级边缘<b class='flag-5'>AI</b><b class='flag-5'>性能</b>,单芯片方案驱动嵌入式系统

    AMD 以全新第二代 Versal 系列器件扩展领先自适应 SoC 产品组合,为 AI 驱动型嵌入式系统提供端到端加速

    第二代 Versal 系列产品组合中首批器件借助下一代 AI 引擎将每瓦 TOPS 提升至高 3 倍,同时将基于 CPU 的标量算力较之第一代提升至高 10 倍 —   斯巴鲁位列首批宣布计划部署
    发表于 04-09 16:50 3905次阅读
    AMD 以全新第二代 <b class='flag-5'>Versal</b> <b class='flag-5'>系列</b>器件扩展领先自适应 SoC <b class='flag-5'>产品</b>组合,为 <b class='flag-5'>AI</b> 驱动型嵌入式系统提供端到端加速

    【ALINX 技术分享】AMD Versal AI Edge 自适应计算加速平台之 Versal 介绍(2)

    【ALINX 技术分享】AMD Versal AI Edge 自适应计算加速平台之 Versal 介绍,以及Versal 芯片开发流程的简介。
    的头像 发表于 03-07 16:03 981次阅读
    【ALINX 技术分享】AMD <b class='flag-5'>Versal</b> <b class='flag-5'>AI</b> Edge 自适应计算加速平台之 <b class='flag-5'>Versal</b> 介绍(2)

    如何提高CYBT-243053-02吞吐量

    你好我们一直在使用“EZ-Serial Firmware: v1.4.13.13 Sep 22 2023 10:24:41”测试“CYBT-243053-02”,我们得到的吞吐量比 PUART 高
    发表于 02-27 06:56

    GPT推断中的批处理(Batching)效应简析

    机器学习模型依赖于批处理(Batching)来提高推断吞吐量,尤其是对于 ResNet 和 DenseNet 等较小的计算机视觉模型。
    的头像 发表于 12-18 15:52 677次阅读
    GPT<b class='flag-5'>推断</b>中的批处理(Batching)效应简析

    影响ATE电源系统吞吐量的关键因素

    从串行设备测试改变为并行设备测试可以显著地增加测试系统吞吐量。测试执行活动的大部分可能涉及使用DC电源设置条件和进行测量。配置测试系统,使其能够使用多个直流电源同时对多个设备执行测试,是显著提高测试吞吐量的一种经济有效的方法。
    发表于 11-29 12:36 365次阅读
    影响ATE电源系统<b class='flag-5'>吞吐量</b>的关键因素