0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

赛灵思分享:智能引擎中所的AI引擎技术分析

454398 来源:Xilinx技术社区 作者:Olivier Tremois 2020-10-11 11:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:Olivier Tremois(AI 引擎工具市场营销部门)和 Florent Werbrouck(赛灵思技术支持产品应用工程师

Versal ACAP 简介

Versal 自适应计算加速平台 (ACAP) 是基于 TSMC 7nm FinFET 工艺技术构建的最新一代赛灵思器件。它利用高带宽片上网络 (NoC) 将代表处理器系统 (PS) 的标量引擎、代表可编程逻辑 (PL) 的自适应引擎与智能引擎有机结合在一起。

本文将着重介绍智能引擎中所包含的 AI 引擎。

赛灵思 AI 引擎简介

在部分赛灵思 Versal ACAP 中包含了 AI 引擎。这些 AI 引擎可排列组合为一组与内存、数据流和级联接口相连的二维AI 引擎拼块阵列。在当前 ACAP 器件(例如,VC1902 器件)上,此阵列最多可包含 400 个拼块。此阵列中还包含AI 引擎接口(位于最后一行),以便于阵列中的其它器件(PS、PL 和 NoC)进行交互。

AI 引擎接口包含PL 和 NoC 接口拼块以及配置拼块。从 PL 到 AI 引擎阵列的连接是使用 AXI4-Stream 接口通过 PL 和 NoC 接口拼块来实现的。从 NoC 到 AI 引擎阵列的连接是使用 AXI4 存储器映射接口通过 NoC 接口拼块来实现的。

有趣的是,从中可以看到,只有在 NoC 到 AI 引擎拼块之间才存在 AXI4 存储器映射直接通信通道,在 AI 引擎拼块到 NoC 之间却并不存在。

注:PL 和 NoC 接口拼块的精确数量因器件而异。《Versal 架构和产品数据手册:简介》(DS950) 中罗列了 AI 引擎阵列的大小。
https://china.xilinx.com/support/documentation/data_sheets/ds950-versal-...

AI 引擎拼块架构

现在,我们来详细了解下此阵列,看看 AI 引擎拼块的内部。

每个 AI 引擎拼块都包含:

  • 1 个拼块互连模块,用于处理 AXI4-Stream 和存储器映射 AXI4 输入/输出
  • 1 个存储器模块,其中包含 32 KB 数据内存,细分为 8 个内存 bank、1 个内存接口、DMA 和各种锁定。
  • 1 个 AI 引擎

AI 引擎可访问全部 4 个方向中的多达 4 个内存模块(作为 1 个连续存储器块)。这意味着除了拼块本地的内存,AI 引擎还可以访问 3 个相邻拼块的本地内存(除非拼块位于阵列边缘)。

  • 北侧内存模块
  • 南侧内存模块
  • 东侧或西侧内存模块(取决于 AI 引擎和内存模块所在的行和相对布局)。

AI 引擎架构

AI 引擎属于高度优化的处理器,包含下列主要特色:

  • 32 位标量 RISC 处理器(名为 Scalar Unit)
  • 1 个 512b SIMD 矢量单元(可提供矢量定点/整数单元)和 1 个单精度浮点 (SPFP) 矢量单元
  • 3 个地址生成器单元 (AGU)
  • 超长指令字 (VLIW) 功能
  • 3 个数据内存端口(2 个负载端口,1 个存储端口)
  • 直接流传输接口(2 个输入流,2 个输出流)

AI 引擎阵列编程

AI 引擎拼块按 10 或 100 为单位组成阵列。创建嵌入多项指令的单一程序用于指定并行性将是一项冗长且近乎不可能的任务。因此 AI 引擎阵列模型编程与 Kahn 处理网络 (Kahn Process Networks) 之间的共通之处在于自主计算进程通过通信边缘实现彼此互连,从而生成处理网络。

(请参阅 https://perso.ensta-paris.fr/~chapoutot/various/kahn_networks.pdf )

在 AI 引擎框架中,Graph 边缘是缓存和数据流,而计算进程则被称为内核。在Graph中,内核经过例化,彼此相连并连接到设计其余部分(NoC 或 PL)。

编程流程分为 2 个阶段:

单内核编程:

内核用于描述特定计算进程。每个内核都将在单一 AI 引擎拼块上运行。但请注意,多个内核可在同一个 AI 引擎拼块上运行,并共享处理时间。任意 C/C++ 代码均可用于对 AI 引擎进行编程。标量处理器将处理大部分代码。如果您的目标是设计高性能内核,那么应考虑采用矢量处理器,它使用称为内部函数的专用函数。这些函数专用于 AI 引擎的矢量处理器,支持您从 AI 引擎中发掘出巨大的处理性能。赛灵思将提供预构建内核(包含在库内),以供用户在其定制 Graph 中使用。

Graph 编程:

赛灵思将提供 C++ 框架以从内核创建Graph。此框架包含 Graph 节点和连接声明。这些节点可包含在 AI 引擎阵列内或可编程逻辑(HLS 内核)中。为了完全掌握内核位置,将有一系列方法可用来约束布局(内核、缓存、系统内存等)。Graph 将例化并使用缓存和数据流将内核连接在一起。它还将描述 AI 引擎阵列与其它ACAP 器件(PL 或 DDR)之间的双向往来数据传输。

赛灵思将提供预构建 Graph(包含在库内),以供用户在其应用中使用。

在运行时以及仿真期间,AI 引擎应用由 PS 进行控制。

赛灵思将根据应用的操作系统提供多种 API,如下所述。

  • Xilinx Run Time (XRT) 和 OpenCL,适用于 Linux 应用
  • 裸机驱动程序

编辑:hfy

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 赛灵思
    +关注

    关注

    33

    文章

    1798

    浏览量

    133658
  • AI
    AI
    +关注

    关注

    91

    文章

    41115

    浏览量

    302607
  • 可编程逻辑
    +关注

    关注

    7

    文章

    529

    浏览量

    45465
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    ×中国邮政 | 以北斗授时,护航国脉AI新基座

    当下AI多模态应用、国产化成为行业主流热点。作为其“十四五"数智化发展重点工程,中国邮政构建起覆盖多场景的AI中台全栈体系,加速推进数智化转型。北斗授时服务器以国产高精度授时能力,
    的头像 发表于 04-14 14:09 306次阅读
    <b class='flag-5'>赛</b><b class='flag-5'>思</b>×中国邮政 | 以北斗授时,护航国脉<b class='flag-5'>AI</b>新基座

    重磅发布|全品类晶振,赋能AI算力精准前行!

    在新质生产力加速构建的浪潮中,人工智能已成为引领未来的核心引擎。而AI算力跃升、大模型稳定运行,离不开一项关键底层支撑——高精度时频技术
    的头像 发表于 04-09 14:40 1305次阅读
    重磅发布|<b class='flag-5'>赛</b><b class='flag-5'>思</b>全品类晶振,赋能<b class='flag-5'>AI</b>算力精准前行!

    FPGA电源解决方案全解析

    FPGA电源解决方案全解析 在当今的电子设计领域,现场可编程门阵列(FPGA)凭借其出色的设计灵活性和较低的工程成本,在众多应用和终端市场中占据了重要地位。然而,FPGA的电源设计和管理却是一
    的头像 发表于 04-02 15:45 220次阅读

    为什么 VisionFive V1 板上的 JH7100 中并存 NVDLA 引擎和神经网络引擎

    我想知道为什么 VisionFive V1 板上的 JH7100 中并存 NVDLA 引擎和神经网络引擎,请问?您能否举一些关于他们的用例的例子?
    发表于 03-25 06:01

    光学引擎奥特智能视觉光源如何赋能工业4.0质检新纪元

    智能制造飞速发展的浪潮中,机器视觉检测技术正以前所未有的速度重塑着现代工业的质量控制体系。作为视觉系统的"光学引擎",高性能视觉光源以其卓越的均匀性和智能化特性,正在成为推动工业质检
    的头像 发表于 02-24 17:53 1021次阅读

    易百纳携多模态AI桌面机器人——Kubee Robot亮相2025火山引擎冬季FORCE大会

    的 Kubee Robot AI 桌面机器人亮相,该产品搭载海 AI 主控与星闪技术,以 HongOU Lite 模组为内核,深度融合豆包大模型能力,实现多模态
    的头像 发表于 12-27 11:30 222次阅读
    易百纳携多模态<b class='flag-5'>AI</b>桌面机器人——Kubee Robot亮相2025火山<b class='flag-5'>引擎</b>冬季FORCE大会

    必驰场景化推理AI重塑智能交互

    AI技术从“感知”走向“认知”的今天,推理能力正成为推动人工智能向更高阶跃迁的核心引擎
    的头像 发表于 12-12 11:31 861次阅读

    带宽7.2Tb/s!海光电推出HI-ONE硅光引擎

    电子发烧友网综合报道 在最近,海光电发布了其全新的HI-ONE硅光引擎,这是基于其III-V光芯片、硅基半导体芯片技术和先进光电封装平台能力,面向AI时代的高密度光电互连推出的新一代
    的头像 发表于 10-27 06:50 6314次阅读

    光庭信息亮相2025上海虚幻引擎技术开放日

    专家与前沿科技企业,共同解锁虚幻引擎(UE)技术的未来边界。光庭信息智能座舱事业部技术总监陈治在汽车峰会专场发表《虚幻引擎助力3D
    的头像 发表于 08-28 15:30 1437次阅读

    特威第二届机器视觉大会即将举办

    去年盛夏,首届易特威机器视觉技术大会点燃了行业创新的火花。易惊艳亮相的 TJ375
    的头像 发表于 08-13 09:53 1584次阅读

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    DeepSeek-R1:强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI大模型。其核心优势
    发表于 07-16 15:29

    软通动力携手华为云推出AI知识引擎与数据工程融合创新解决方案

    在华为开发者大会2025中,软通动力携手华为云以华为云昇腾AI、盘古大模型、ModelArts等为技术底座,全新升级数据治理基线解决方案,正式发布AI知识引擎与数据工程融合创新解决方案
    的头像 发表于 06-28 17:07 1768次阅读

    机智云亮相2025春季火山引擎FORCE原动力大会

    在 2025 年字节跳动火山引擎 Force 春季原动力大会上,作为 AIoT 领域的创新先锋,机智云以火山引擎与扣子智能体核心AI生态合作伙伴身份重磅亮相,凭借基于火山
    的头像 发表于 06-23 09:16 1302次阅读

    广和通出席2025春季火山引擎FORCE原动力大会

    景的AI交互能力。大会聚焦大模型、云原生、智能应用等前沿议题,吸引了来自人工智能、云计算和应用开发等领域的大量开发者、技术专家及生态伙伴,共话AI
    的头像 发表于 06-17 09:17 1202次阅读

    涂鸦智能重磅发布四大AIoT技术引擎,赋能开发者以AI重构物理世界

    正加快推动AIoT技术普惠化进程。现场,涂鸦分享了AIAgent开发平台,并重磅发布了Tuya.AI、TuyaOpen和海德薇(HEDV)等技术引擎,赋能开发者全
    的头像 发表于 05-08 19:07 922次阅读
    涂鸦<b class='flag-5'>智能</b>重磅发布四大AIoT<b class='flag-5'>技术</b><b class='flag-5'>引擎</b>,赋能开发者以<b class='flag-5'>AI</b>重构物理世界