0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

揭秘赛灵思计算平台ACAP技术细节

电子工程师 来源:FPGA技术江湖 作者:FPGA技术江湖 2021-01-04 09:53 次阅读

在日前召开的FPGA领域的学术顶会--2019年“FPGA国际研讨会”上,赛灵思发表了两篇长论文,详细介绍了赛灵思“自适应计算加速平台”ACAP的系统架构和技术细节。本文将对ACAP的主要架构创新进行深入解读,让各位先睹为快。

ACAP是赛灵思在2018年推出的新一代计算平台。在发布伊始,赛灵思新任掌门人Victor Peng就再三强调,ACAP并不是FPGA,而是整合了硬件编程逻辑单元、软件可编程处理器、以及软件可编程加速引擎的计算平台产品,是赛灵思“发明FPGA以来最卓越的工程成就”,足可见这个产品系列的重要性。

与其说ACAP是某种具体的芯片产品,不如说它像FPGA一样,代指一种芯片架构。而赛灵思这次发表的论文,主要介绍的是基于ACAP架构的首款产品,名为Versal,并将基于台积电的7纳米工艺制造。相比传统的FPGA架构,Versal ACAP在系统架构、电路结构、互联方式等很多方面进行了大胆革新,这也是本文将要讨论的重点。

芯片架构

Versal ACAP的芯片布局如下图所示。总体来看,它与传统FPGA结构非常类似,主要包含可编程逻辑部分、高速I/O与收发器嵌入式处理器、存储器控制等FPGA的常见硬件资源与模块。

f9a2f7b4-4b7e-11eb-8b86-12bb97331649.jpg

值得注意的是,ACAP架构与传统FPGA有两点主要区别:

芯片顶端(北侧)包含了AI加速引擎阵列,它们主要用来加速机器学习和无线网络等应用中常见的数学计算。然而,关于AI引擎的具体结构,在这篇论文中并未提及。

在传统FPGA片上互联技术的基础上,ACAP采用了固化的片上网络(NoC),这主要是针对高带宽、高吞吐量的应用场景,如存储器控制和AI应用等,在上图中也可以清晰的看到NoC与这些应用模块的紧密互联。

关于NoC的具体技术细节,在本次会议有另外一篇论文进行详细阐述,见下图。本文将对其进行简单概述,并会在下篇文章中深入解析。

除NoC以外,ACAP选择将很多常用的IP固化在芯片上,以提高性能、稳定性,并减少额外的可编程逻辑资源的使用。除了常见的PCIe、DDR控制器以太网MAC之外,ACAP还选择将嵌入式处理器和芯片管理单元进行固化,这令人有些意外。

在论文中介绍,在亚马逊AWS F1实例中使用的片上管理单元占据了芯片面积的很大部分,如下图所示,而这也是赛灵思选择在ACAP上对这类逻辑进行固化的主要原因。

在可编程芯片上固化逻辑其实是一把双刃剑,在提升性能和降低逻辑单元使用率的同时,牺牲的是被固化单元的灵活性。因此,往往只会选择固化已经由成熟标准的逻辑单元,比如上文提到的通信接口与内存控制器等。对于芯片管理单元,固化后是否仍能适用于不同的应用场景?是否比集成ARM等硬核处理器更有效?这些问题就需要通过实际使用得到答案。

Versal ACAP架构的一个主要的创新之处,就是采用了非常规整的可编程逻辑阵列和时钟域分布。老石之前曾介绍过一种名为“Overlay”的FPGA虚拟化技术,它的本质就是在FPGA的硬件层之上,抽象出一层虚拟的Overlay结构,如下图所示。Overlay层基于CGRA等规整的逻辑结构,对应用层非常友好,但对不规整的FPGA底层架构而言,实现起来势必会造成资源的浪费和性能的损失。

fa1cb5cc-4b7e-11eb-8b86-12bb97331649.jpg

ACAP架构采用了更加规整的可编程逻辑阵列,以及分布均匀的时钟域,理论上这是极其有用的创新,特别是对于布局布线后的设计而言。通过这种方式,使得IP接口可以复用,即把一个IP从一个位置挪到另一个位置时,不需要对整个设计重新编译,只需要单独处理修改的部分即可。

更重要的是,这使得用户可以重复使用已经完成布局布线的“半成品”或“模板”,只需要在事先保留的区域内加入新设计即可,这样可以极大的减少编译时间。这个创新与目前FPGA已有的划分可编程区域等技术类似,但更进一步。只可惜,在这篇论文中没有给出这个创新的任何实例或数据,因此很难确定这项技术是否已经实现,还是仅仅停留在理论层面。

CLB微结构

CLB是可编程逻辑块的缩写,它包含了多个可编程逻辑单元及其互联。与传统FPGA相比,Versal ACAP对它的CLB微结构进行了重大革新,用“翻天覆地”来形容也不为过。其中,最主要的架构变化有以下四点。

首先,CLB的容量相较UltraScale FPGA架构扩大了四倍,包含32个LUT和64个寄存器,见下图。

fa481096-4b7e-11eb-8b86-12bb97331649.jpg

这样做的主要目的,是为了减少全局布线资源的使用。ACAP为每个CLB设置了单独的内部高速互联,与全局布线相比,这些内部互联更加快速,布线逻辑也更简单,从而减轻了全局布线的压力与拥挤。如下图所示,采用了大CLB后,有18%的布线可以通过内部互联完成。而对于传统FPGA,只有7%的布线能在CLB内完成,其他都需要占用全局布线资源。

fabd2b38-4b7e-11eb-8b86-12bb97331649.jpg

第二,每个查找表结构(LUT)增加了一个额外的输出,这是一个重要的架构变化。传统FPGA的LUT结构为6输入、2输出,如下图所示,可以实现任意的6输入逻辑,或者两个5输入逻辑。当添加了一个新的输出O5_2之后,就可以实现两个独立的6输入逻辑功能。

fb75966e-4b7e-11eb-8b86-12bb97331649.jpg

这种结构的另外一个好处,是允许更多的逻辑功能进行合并,以减少LUT的使用量。FPGA设计工具会根据两个LUT的距离,判断这两个LUT里的逻辑能否进行合并。例如,与UltraScale架构相比,当两个LUT之间的距离小于5个Slice网格距离时,Versal ACAP架构能多合并21.5%的逻辑功能,从而减少相应的硬件资源使用。

fc047fe6-4b7e-11eb-8b86-12bb97331649.jpg

作为代价,在UltraScale架构中存在的Wide Function功能被移走。因此如果需要实现诸如32:1的选择器时,就可能会扩展到多个Slice,对时序造成负面影响,并且需要额外的硬件资源支持。

第三,每个Slice的进位链逻辑结构进行了彻底修改,如下图所示。事实上,一直是现代FPGA标配的固化进位链被完全移除,取而代之的是使用LUT中新增加的cascade_in和LUT逻辑完成加法结构。

fc89e03c-4b7e-11eb-8b86-12bb97331649.jpg

论文中对这部分的讨论过于简单,对这个重要的架构改变没有给出详细原因,对上图中Versal进位链的具体实现结构也含糊不清。老石猜测,这个改变的主要原因还是由于新增加的第二个LUT输出,如果继续保留进位链逻辑,会导致LUT间延时过大,从而影响时序。但是,这种新的进位链结构是否会对算术运算的性能产生负面影响,赛灵思并未在论文中给出数据佐证。

第四,引入了名为“Imux寄存器”的新结构。这种新寄存器架构很明显是用来对标英特尔的HyperFlex架构。Imux寄存器共有四种模式,如下图所示。

fcd1e03a-4b7e-11eb-8b86-12bb97331649.jpg

这种架构只在CLB之前引入了用于优化时序、增加流水线的寄存器。同时,这些寄存器包含了复位、初始化、时钟使能等常见寄存器功能。这与HyperFlex的海量寄存器架构有着明显不同,如下图。Imux没有在全部布线资源上都设置寄存器,因此引入的额外延时会更小。但在深度流水线设计中,这种结构的绝对性能应该不如HyperFlex架构。

fd8bd008-4b7e-11eb-8b86-12bb97331649.png

上面的四种Imux使用模式在本文中不再赘述,例如下图展示了其中的Time Borrowing、Pipelining、以及二者结合的模式。但这几种方式与传统的流水线和Retiming方式并没有本质区别。

fde77c1e-4b7e-11eb-8b86-12bb97331649.jpg

关于Imux寄存器架构,这篇论文最严重的问题在于实测数据和对比很少。这样的实验和论述,使得这部分内容更像一篇白皮书,而非高端学术论文。严谨的学术方法是需要兼顾可重复性和标准性,例如,选取一些标准的参考设计和Benchmark,分别使用英特尔的HyperFlex架构、赛灵思的UltraScale架构,以及这里提出的Imux架构,进行实现,并测量这些在这些架构上分别能得到多快的运行频率。很显然,这篇论文在很多地方都存在这样的问题。

3D芯片制造技术SSIT

ACAP采用了赛灵思的第四代硅片堆叠技术SSIT。关于这个技术的细节,老石在之前的文章中详细介绍过。这个技术本质上是将多个小型硅片,放置在一个大的无源硅中介层上,然后通过硅通孔和芯片连线进行互联,从而组成一个大芯片。

fe59cc9c-4b7e-11eb-8b86-12bb97331649.jpg

这种技术非常适合在每代半导体工艺的发展早期,特别是制造大型硅片的良率较低的情况。另外,SSIT的灵活性比较高,技术思路比较直接,发展至今已有四代,已经比较成熟。

不过,这种技术的主要问题非常明显,主要有以下几点:

当工艺成熟后,这种方式带来的良率提升就不甚明显,综合成本反而会上升。

将多枚硅片通过硅中间层组合,可能会带来明显的性能降低。这主要受制于硅片间的互联资源,以及互联导线的巨大延迟。

该技术会限制FPGA配置的灵活性,因为它相当于人为的增加了多个设计区域和边界。这也对设计工具的优化能力造成了很大的挑战。

在这篇论文中,Versal ACAP主要针对上面的第二和第三点进行了优化和改进。例如,在Versal架构中,采用了更多的硅片间的互联通道(SLL channel),如下图所示。同时,这些互联通道的传输延时也得到了进一步优化,相比传统连线的延时下降了30%。

feac25fa-4b7e-11eb-8b86-12bb97331649.jpg

片上网络NoC

片上网络是ACAP的主要技术革新之一。对于诸如DDR、高速网络、PCIe等高速接口与应用来说,通常有着很高的带宽要求。这一方面需要采用高位宽的总线,另一方面需要高速时钟。因此,传统的FPGA设计方法都是通过对总线进行深度流水线来实现。但对于一个大型设计而言,这种方法会很快造成片上布线资源的拥挤。这就需要寻找有效的方法,同时解决高速数据传输和低拥堵布线两个问题。

ACAP采用了片上网络(Network-on-Chip,NoC)技术应对上述问题。在传统的FPGA布线资源之外,引入了NoC网络,将需要进行高速数据传输的内容转化成基于数据包的形式,通过NoC的交换机逻辑实现数据交换,如下图所示。与网络应用类似,这种片上网络也能对各类的传输进行服务质量控制(QoS)。

ff1191a6-4b7e-11eb-8b86-12bb97331649.jpg

这种方法最大的优点是在系统层面,将数据传输与数据计算进行了分离,从而在保证带宽的基础上,缓解了系统的布局布线压力。例如,数据计算可以在AI引擎或片上其他部分实现,而不需紧靠DDR控制器等高速接口。

不过,这种方法的主要问题是引入了额外的传输延时,这对于需要固定延时或者低延时的应用可能会有影响。在这篇论文中,并没有提及延时的数据。此外,片上网络的位宽是固定的,无法对应用进行优化,这也有可能对不同应用的系统性能造成负面影响。

结语

ACAP作为赛灵思重磅推出的下一代计算平台,从发布之初就备受瞩目。究竟ACAP是不是FPGA,这个问题其实并不重要,重要的是ACAP的本质仍然是基于可编程逻辑阵列的异构计算芯片。与传统FPGA架构相比,ACAP带来了诸多系统和微结构的换代和革新,这也让人们看到了业界为了延续摩尔定律的发展所做的不懈努力。

就这篇论文而言,虽然很多地方的学术严谨性有待提高,但瑕不掩瑜。作为第一篇完整的介绍Versal ACAP架构细节的论文,它还是为我们带来了很多对ACAP新结构、新技术的详细阐述和讨论,也让我们得以一窥ACAP的技术细节。

原文标题:赛灵思计算平台ACAP技术细节全揭秘

文章出处:【微信公众号:FPGA技术江湖】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1625

    文章

    21664

    浏览量

    601677
  • 赛灵思
    +关注

    关注

    32

    文章

    1794

    浏览量

    131158
  • ACAP
    +关注

    关注

    1

    文章

    54

    浏览量

    8157

原文标题:赛灵思计算平台ACAP技术细节全揭秘

文章出处:【微信号:HXSLH1010101010,微信公众号:FPGA技术江湖】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    盛在线平台疑问解答系列(二)

    02盛在线平台疑问解答系列(二)sesOnlineSES前言技术于2024年10月17日隆重发布了最新产品《盛在线学习及工具应用
    的头像 发表于 11-09 01:06 103次阅读
    <b class='flag-5'>赛</b>盛在线<b class='flag-5'>平台</b>疑问解答系列(二)

    盛在线平台疑问解答系列(一)

    01盛在线平台疑问解答系列(一)sesOnlineSES前言技术于2024年10月17日隆重发布了最新产品《盛在线学习及工具应用
    的头像 发表于 10-31 08:05 133次阅读
    <b class='flag-5'>赛</b>盛在线<b class='flag-5'>平台</b>疑问解答系列(一)

    深入解析Zephyr RTOS的技术细节

    ,Zephyr OS在嵌入式开发中的知名度逐渐增加,新的微控制器和开发板都支持Zephyr。本文将深入讨论Zephyr RTOS的技术细节
    的头像 发表于 10-22 16:47 284次阅读
    深入解析Zephyr RTOS的<b class='flag-5'>技术细节</b>

    探究双路或四路可选可编程晶体振荡器SG-8503CA/SG-8504CA的技术细节及其应用

    探究双路或四路可选可编程晶体振荡器SG-8503CA/SG-8504CA的技术细节及其应用
    的头像 发表于 07-23 17:08 325次阅读

    快讯 | 发展新质生产力问道如何下好“创新棋”?

    7月11日,南湖区委宣传部、清华大学马克主义学院共同带队一行莅临围绕时频新质生产力创新层面进行实地调研,副总经理田永和、对外合作部
    的头像 发表于 07-12 13:31 457次阅读
    <b class='flag-5'>赛</b><b class='flag-5'>思</b>快讯 | 发展新质生产力问道<b class='flag-5'>赛</b><b class='flag-5'>思</b>?<b class='flag-5'>赛</b><b class='flag-5'>思</b>如何下好“创新棋”?

    LED显示屏的换帧频率与刷新频率:技术细节与市场发展

    在当今数字化时代,LED显示屏已成为信息传递和广告宣传的重要工具。然而,对于普通消费者来说,LED显示屏背后的技术细节可能仍然是一个谜。今天,我们将深入探讨LED显示屏中的两个关键概念:换帧频率和刷新频率,以及它们之间的关系,带领大家了解这些技术如何影响我们的视觉体验。
    的头像 发表于 06-23 02:22 632次阅读
    LED显示屏的换帧频率与刷新频率:<b class='flag-5'>技术细节</b>与市场发展

    中科爱毕红外光电探测技术,打破高端市场“卡脖子”困境

    “超晶格红外光电探测,如同照相机通过可见光感知事物,但它是通过红外手段来感知世界的……”在中科爱毕(常州)光电科技有限公司(以下简称“中科爱毕”),工作人员这样介绍公司的核心产
    的头像 发表于 05-30 09:14 1.7w次阅读
    中科爱毕<b class='flag-5'>赛</b><b class='flag-5'>思</b>红外光电探测<b class='flag-5'>技术</b>,打破高端市场“卡脖子”困境

    PMP22165.1-适用于 Xilinx 通用自适应计算加速平台 (ACAP) 的电源 PCB layout 设计

    电子发烧友网站提供《PMP22165.1-适用于 Xilinx 通用自适应计算加速平台 (ACAP) 的电源 PCB layout 设计.pdf》资料免费下载
    发表于 05-19 10:45 0次下载
    PMP22165.1-适用于 Xilinx 通用自适应<b class='flag-5'>计算</b>加速<b class='flag-5'>平台</b> (<b class='flag-5'>ACAP</b>) 的电源 PCB layout 设计

    快讯 | 热烈欢迎嘉兴市政协一行领导莅临总部调研指导工作!

    近日,嘉兴市政协一行领导莅临总部调研指导工作,副总经理王文涛、田永和全程陪同。嘉兴市政协一行领导莅临
    的头像 发表于 05-17 13:22 474次阅读
    <b class='flag-5'>赛</b><b class='flag-5'>思</b>快讯 | 热烈欢迎嘉兴市政协一行领导莅临<b class='flag-5'>赛</b><b class='flag-5'>思</b>总部调研指导工作!

    西威与长线智能合作共同打造行业领先的车载中央计算平台

    西威与长线智能签署合作协议,将基于新一代高算力中央计算平台芯片,集中各自技术资源优势,共同打造行业领先的车载中央计算
    的头像 发表于 04-30 11:39 736次阅读
    德<b class='flag-5'>赛</b>西威与长线智能合作共同打造行业领先的车载中央<b class='flag-5'>计算</b><b class='flag-5'>平台</b>

    深入了解目标检测深度学习算法的技术细节

    本文将讨论目标检测的基本方法(穷尽搜索、R-CNN、FastR-CNN和FasterR-CNN),并尝试理解每个模型的技术细节。为了让经验水平各不相同的读者都能够理解,文章不会使用任何公式来进行讲解
    的头像 发表于 04-30 08:27 313次阅读
    深入了解目标检测深度学习算法的<b class='flag-5'>技术细节</b>

    聊聊50G PON的技术细节

    今天给大家详细说说50GPON的一些技术细节。我尽量用通俗易懂的方式解释,相信大家看了一定会有收获。█50GPON的技术指标PON(无源光网络)是一个接入网技术。它的核心作用,就类似一个“有线”基站
    的头像 发表于 04-30 08:05 223次阅读
    聊聊50G PON的<b class='flag-5'>技术细节</b>

    FPGA flash操作原理

    FPGA flash操作原理分享
    的头像 发表于 04-09 15:03 934次阅读

    晶振产品彩页

    电子发烧友网站提供《晶振产品彩页.pdf》资料免费下载
    发表于 12-12 14:18 0次下载

    256核!昉发布全新RISC-V众核子系统IP平台

    Coherency)和内存子系统。该RISC-V众核子系统IP平台可广泛应用于服务器、DPU、计算存储、网络通信、AI等领域。 StarLink-700 RISC-V众核子系统IP平台 今年,
    发表于 11-29 13:37