作者:张迎辉
赛灵思总裁及首席执行官Victor Peng先生日前在北京举行的赛灵思开发者大会上发布“打造灵活应变、万物智能的世界”为题的主题演讲” 并隆重推出面向人工智能和数据中心的两款重磅产品-Versal 及 Alveo,展示了赛灵思人工智能加速及数据中心优先战略的强大执行力和创新能力。
赛灵思总裁及首席执行官Victor Peng先生在XDF2018北京站演讲中阐述赛灵思的使命-打造灵活应变、万物智能的世界。
Xilinx本次发布的业界首款ACAP芯片VERSAL,采用了台积电的7纳米FinFET工艺,其异构加速技术能够为任何开发者,满足任何创新应用。Victor Peng介绍,Versal 产品组合基于 台积电(TSMC)的 7 nm FinFET 工艺技术,是第一个将软件可编程性与特定领域硬件加速和灵活应变能力相结合的平台,这对于跟上当今快速的创新步伐至关重要。该产品组合包括 6 个系列的器件,其独特架构针对云端、网络、无线通信乃至边缘计算和端点等不同市场的众多应用提供了可扩展性和 AI 推断功能。
该产品组合包括 Versal 基础系列( Versal Prime),Versal 旗舰系列 (Versal Premium旗舰)系列和 HBM 系列,能针对要求最严格的应用提供业界领先的性能、连接性、带宽和集成功能。此外,该产品组合还包括 AI 核心系列(AI Core),AI 边缘系列 ( AI Edge) 和 AI 射频系列(AI RF),采用突破性的 AI 引擎。AI 引擎是一种新型硬件模块,专为解决各种应用低时延 AI 推断的新需求而设计,同时支持高级 DSP 实现方案,满足无线和雷达等应用要求。它与 Versal 自适应硬件引擎紧密结合,支持整体应用加速,也就是说软硬件都能调节,从而确保最高性能和效率。
Versal组合中率先亮相的是 Versal Prime 系列,跨多个市场提供广泛的适用性,同时推出的还有 Versal AI Core 系列,相对于业界领先的 GPU,AI 推断性能预计能提升 8 倍。
VERSAL AI 核心系列
Versal AI Core系列的产品参数
Versal AI 核心系列提供该系列最高计算性能和最低时延,实现突破性的 AI 推断吞吐量和性能。该系列针对云端、网络和自动驾驶技术进行了优化,提供业界最广泛的 AI 和工作负载加速功能。Versal AI 核心系列 有 5 款产品,提供 128 到 400 个 AI 引擎。该系列包括双核 Arm Cortex-A72 应用处理器、双核 Arm Cortex-R5 实时处理器、256KB 片上 ECC 存储器、超过 1900 个专为高精度低时延浮点运算而优化的 DSP 引擎。此外,它还包括 190 多万个系统逻辑单元以及超过 130Mb 的 UltraRAM、高达 34Mb 的块 RAM 和 28Mb 分布式 RAM 和 32Mb 新加速器 RAM 块,任何引擎都能直接访问,这也是 Versal AI 系列的独特之处,而且都能支持定制存储器架构。该系列还包括 PCIe® Gen4 8 信道和 16 信道以及 CCIX 主机接口、功耗优化型 32G SerDes、多达 4 个集成型 DDR4 存储器控制器、多达 4 个多速率以太网 MAC、650 个高性能 I/O(用于 MIPI D-PHY)、NAND、存储级内存接口和 LVDS、78 个多路复用 I/O(连接外部组件)和超过 40 个 HD I/O(3.3V 接口)。以上所有器件均通过业界一流的片上网络 (NoC) 实现互联,具有多达 28 个主/从端口,以低时延提供每秒多 Tb 带宽,而且提供高功率效率和原生软件的可编程性。完整的产品列表现已发布。
VERSAL PRIME 系列
Versal Prime 系列经过精心设计,适用于多个市场的广泛应用,并针对各种工作负载的连接性和在线加速进行了优化。这款中端系列包括 9 款产品,每款产品都采用双核 Arm Cortex-A72 应用处理器、双核 Arm Cortex-R5 实时处理器、256KB 片上存储器(带 ECC)、超过 4000 个专为低时延高精度浮点运算优化的 DSP 引擎。此外,它还包括 200 多万个系统逻辑单元,结合 200Mb 以上 UltraRAM、超过 90Mb 的块 RAM 以及 30Mb 分布式 RAM,能支持定制存储器架构。该系列还包括 PCIe Gen4 8信道和 16 信道以及 CCIX 主机接口、功耗优化型 32Gb 每秒的 SerDes 和主流 58Gb 每秒的 PAM4 SerDes、多达 6 个集成型 DDR4 存储器控制器、多达 4 个多速率以太网 MAC、700 个高性能 I/O(支持 MIPI D-PHY)、NAND、存储级内存接口和 LVDS、78 个多路复用 I/O(连接外部组件)和超过 40 个 HD I/O(3.3V 接口)。以上均通过业界一流的片上网络 (NoC) 实现互联,具有多达 28 个主/从端口,以低时延提供每秒多 Tb 带宽,而且提供高功率效率和原生的软件可编程性。完整的产品列表现已发布。
赛灵思目前正通过早期试用计划与多家关键客户合作。Versal Prime 系列和 Versal AI Core 系列将于 2019 年下半年上市。
在演讲过程中,赛灵思总裁及首席执行官Victor Peng先生还为大家介绍全球最快的数据中心及AI加速器卡Alveo。据介绍,现场发布的Alveo U200 和 Alveo U250两款产品采用了 Xilinx UltraScale+ FPGA芯片。
赛灵思软件及IP产品执行副总裁Salil Raje先生为大家带来AI加速的主题演讲,激情描绘赛灵思灵活应变的新型器件将如何加速当今AI时代各种创新的整体应用,拥抱所有的开发者。
赛灵思产品及技术营销高级总监Kirk Saban为大家带来行业首款灵活应变的ACAP自适应计算加速平台Versal,致力于为所有开发者、所有应用开启快速创新新时代。
多位赛灵思的FPGA合作伙伴们,也在现场演讲介绍了基于FPGA的云计算服务技术,以及基于赛灵思之前发布过的16纳米的异构FPGA UltraScale SoC的加速卡等产品。
XDF大会合作伙伴合影。从左至右 阿里巴巴异构计算总监项午,阿里云FPGA研发总监 张振祥,浪潮集团总裁 李金,赛灵思CEO Vcitor Peng,华为FPGA加速云服务技术负责人张小华。
赛灵思的现场合作伙伴如浪潮、华为现场发布了最新的加速卡,华为和阿里云都推出了FaaS云平台。他们认为,AI时代正在到来,开发者们对于FPGA as a Service(FaaS)的业务需求不断扩大,FPGA加速卡市场成长非常看好。阿里云FPGA异构计算研发总监张振祥表示,FaaS的价值不仅在于提升了效率,相比CPU的物联网时序数据库运算提升了30倍,还为公司三年节省的TCO成本高达40%。
华为的FPGA加速云平台深圳深鉴科技、睿视知觉、Alcon Computing、NGCODEC、CTACCEL等加速解决方案,开发者使用华为FPGA云平台,可以实现全栈加速解决方案。
XDF2018北京站展位现场演示的实时机器学习推断演示-人脸识别、车辆识别等。
精彩问答
会后赛灵思高管还接受了媒体记者的采访。Victor Peng先生也回答了电子发烧友等媒体的现场提问。
现在越来越多赛灵思的客户,如华为、阿里也都在打造属于自己的云端、数据中心和AI芯片,这对于赛思灵的产品策略有何影响?Victor表示,“产业还处于AI革命的早期,大家都在寻找不同的解决方案,这也为大家带来了很多的机遇。可能有一些领域是适用于固定功能的芯片(ASIC),但是我相信绝大多数还是需要使用像我们这样灵活应用的平台作为解决方案。因此,我并不认为ACAP或者Alveo产品会取代所有的GPU,但是肯定会越来越多采用灵活应变的平台。”
对于为何目前好几家厂商如华为、赛灵思等厂商的新AI芯片,都不约而同地选用采用7纳米的工艺的原因,赛灵思软件产品副总裁Ramine也回答了电子发烧友的记者的提问。“采用7纳米是因为现在它是制程上是最先进的技术手段,所以大家都会云想用最快的,而且性能最快高,功耗最小的,当然,现在看成本也是最高的。另外想指出,传统专用芯片来比,从设计到真正量产通常不少于两年的周期,所以现在大家看到专用芯片设计都是两年以前的时间节点。很多ASIC芯片的功能和架构设计都是针对两年以前的网络来进行设计。FPGA架构就完全不一样了,它从设计到使用完全符合最新的技术应用的要求,也就是现在不管是移动网络还是什么样的网络,几年以前这个东西并不是特别流行,但是现在会比较多。如果用CPU、GPU,真正用它的性能,会发现和它表述有差别,因为当时设计规划不适应现在的需求。但是FPGA完全没有这个问题,在现在深度学习和机器学习非常流行的年代,可以适应现在最好的状态,比较老的FPGA都可以支持最新的机器学习和深度学习的应用,但是在这一点上ACAP是有比较长的延迟,因为是适用于两年以前的网络。”
在人工智能时代,嵌入式FPGA或者是SoC中集中FPGA的IP的做法(eFPGA),是否也能更好地在灵活性上满足AI的需求? 赛灵思软件产品副总裁Ramine也回应了电子发烧友记者的这个提问。
赛灵思软件产品副总裁Ramine首先指出,赛灵思的ACAP不是一个嵌入式的专用芯片,它是一个功能完善的完整芯片,芯片内部的连接和通信非常容易,在数据传输方面效果就非常好。除此外,它内部还有各种各样不同的处理器,每个处理单元都是为了不同的工作负载来专门进行优化的,比如CPU,是专门做一些适合于CPU做的复杂算法的运算。FPGA用于流媒体计算,还有新处理计算的引擎,比如AI、AI引擎是矢量处理器的阵列,主要处理现行计算的工作负载。几乎每个处理计算单元都是为了不同的工作负载而重新优化过,然后进行组合。也就是每个计算单元都是功能强大的独立完整的节点。这样一个完整的芯片,在不同的工作负载下都可以发挥非常好的效果。
其次,eFPGA仅仅是一个FPGA IP而已,也就是说它在标准连接上,比如你想连接不同的应用芯片的话,它没有一个标准连接的模式。另外,它在内存和IO可编程性上也时比较差。eFPGA在过去并不是特别成功,因为eFPGA已经存在了二十多年时间,但是到目前为止也没有看到哪个公司真的是做EFPGA做的比较成功,所以现在市场不是很认可。
另外,跟大家分享一条好消息!2018年12月4日,由电子发烧友网举办的“第5届中国IoT(物联网)大会”将于深圳举办,如欲了解详情可点击标题超链进入大会专题通道。
评论
查看更多