0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI引擎机器学习阵列指南

Xilinx赛灵思官微 来源:Xilinx赛灵思官微 2024-09-18 09:16 次阅读

AMD Versal AI Core 系列和 Versal AI Edge 系列旨在凭借 AI 引擎机器学习 ( ML ) 架构来提供突破性的 AI 推断加速。这些器件的设计应用范围广泛,包括用于云端动态工作负载以及超高带宽网络,同时还可提供高级安全性功能。AI 和数据科学家以及软硬件开发者均可充分利用高计算密度的优势来加速提升任何应用的性能。AI 引擎机器学习拥有先进的张量计算能力,非常适合用于高度优化的 AI 和 ML 应用。

AI 引擎机器学习器件包含二维阵列,由带有单指令流多数据流 ( SIMD ) 矢量单元的超长指令字 ( VLIW ) 处理器构成,专为计算密集型应用而高度优化,特别适用于机器学习 ( ML ) 等 AI 技术。

AI 引擎机器学习阵列支持三种级别并行度:

指令级并行度 ( ILP ):通过 VLIW 架构,允许在单个时钟周期内执行多次运算。
SIMD:通过矢量寄存器,允许并行执行多项计算。
多核:通过 AI 引擎机器学习阵列,支持并行执行多个 AI 引擎机器学习核。

指令级并行度包括 1 次标量操作、1 次移动、2 次矢量读取(加载)、1 次矢量写入(存储)和 1 条可执行的矢量指令,总计每个时钟周期达 6 路 VLIW 指令。数据级并行度是通过矢量级操作来实现的,其中每个时钟周期可执行多组数据操作。

每个 AI 引擎机器学习都包含矢量处理器和标量处理器、专用程序存储器、本地 64 KB 数据存储器、支持访问其本身和三个相邻 AI 引擎机器学习内的本地存储器。它还可访问 DMA 引擎和 AXI4 互连开关,以通过串流来与其他 AI 引擎机器学习进行通信或者与可编程逻辑 ( PL ) 或 DMA 进行通信。请参阅《Versal 自适应 SoC AIE ML 架构手册》 ( AM020 ) 以获取有关 AI 引擎机器学习阵列和接口的具体详细信息

b5d29b6992f9e799189185986d306675.png

虽然对于 AI 引擎机器学习而言,大部分标准 C 语言代码均可编译,但代码可能需要重构才能充分利用硬件所提供的并行度。AI 引擎机器学习的优势在于,它能够在每个时钟周期内使用 2 个矢量执行乘积累加 ( MAC ) 运算、为下一项运算加载 2 个矢量、存储来自上一项运算的单个矢量,并递增一个指针或执行另一次标量运算。称为本征函数的专用函数允许您以 AI 引擎机器学习矢量处理器和标量处理器为目标,并提供多个常用矢量函数和标量函数的实现,使您能够专注于处理目标算法。AI 引擎机器学习不仅包含其矢量单元,还包含一个标量单元用于所有标准 C 语言代码程序。

AI 引擎机器学习程序使用以 C++ 编写的数据流计算图(自适应数据流计算图)规格。此规范可使用 AI 引擎编译器进行编译并执行。自适应数据流 ( ADF ) 计算图应用由多个节点和边缘组成,其中节点表示计算内核函数,边缘则表示数据连接。应用中的内核可编译为在 AI 引擎机器学习上运行,这些内核构成了 ADF 计算图规范的基础构建块。ADF 计算图属于 Kahn 进程网络,其中包含并行运行的 AI 引擎内核。AI 引擎内核在数据串流和缓冲器上执行运算。这些内核会耗用输入数据块并生成输出数据块。内核还可包含静态数据或运行时参数 ( RTP ) 实参,包括异步实参或同步实参。

下图显示

ADF 计算图的概念视图及其与处理器系统 ( PS )、可编程逻辑 ( PL ) 和 DDR 存储器的对接接口。它包括:

AI 引擎机器学习:每个 AI 引擎机器学习都是一个 VLIW 处理器,其中包含一个标量单元、一个矢量单元、两个加载单元和一个存储单元。

AI 引擎内核:内核是以 AI 引擎机器学习中运行的 C/C++ 编写的。

ADF 计算图:ADF 计算图是具有单个或多个 AI 引擎内核(以数据串流和/或缓冲器连接)的 Kahn 进程网络。它凭借如下特定构造来与 PL、全局存储器和 PS 进行交互,此类构造有:PLIO(计算图中的端口属性,用于建立往来可编程逻辑的串流连接)、GMIO(计算图中的端口属性,用于建立往来全局存储器的外部存储器映射连接)和 RTP。

如需了解有关 AI 引擎机器学习存储器拼块访问的信息,请参阅 AI 引擎机器学习存储器拼块访问。如需了解有关 AI 引擎机器学习外部存储器访问的信息,请参阅 AI 引擎机器学习外部存储器访问。

本文档第 2 章到第 5 章聚焦 AI 引擎内核编程,不仅涉及单内核编程,还涵盖了多方面的内容,如内核之间的数据通信,这些内容都是将应用分区为多个内核以达成所需的吞吐量所必不可少的概念。

本文档第 6 到 14 章焦点包括 AI 引擎计算图编程构造、内核之间的数据通信类型、通过主机应用来控制 AI 引擎计算图以及高级计算图编程构造。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19259

    浏览量

    229651
  • AI
    AI
    +关注

    关注

    87

    文章

    30728

    浏览量

    268886
  • 机器学习
    +关注

    关注

    66

    文章

    8406

    浏览量

    132562

原文标题:AI 引擎机器学习内核与计算图编程指南

文章出处:【微信号:赛灵思,微信公众号:Xilinx赛灵思官微】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    RISC-V如何支持不同的AI机器学习框架和库?

    RISC-V如何支持不同的AI机器学习框架和库?还请坛友们多多指教一下。
    发表于 10-10 22:24

    机器学习实践指南——案例应用解析

    机器学习实践指南——案例应用解析
    发表于 04-13 16:40

    Firefly支持AI引擎Tengine,性能提升,轻松搭建AI计算框架

    `Tengine 是OPEN AI LAB 为嵌入式设备开发的一个轻量级、高性能并且模块化的引擎。基于ARM平台高效的计算库实现,针对特定硬件平台的性能优化,吸取已有AI计算框架的优点,设计全新
    发表于 08-13 15:58

    AI学习AI概论:(Part-A)与AI智慧交流

    人机界面---基于Excel+Python任务三:观察事物,提取特征任务四:如何把特征传递给AI---迈入机器学习任务五:传递你观察到的新特征任务六:观察特征的更多(新的组合)任务七:观察更多食物和特征任务八:创作你自己的
    发表于 10-30 14:04

    AI学习AI概论:(Part-B)AI头脑+机器人行为

    任务九:让AI自动提取特征目标: • 在前面各任务里,已经引导AI自我学习,能够基于人们所给予的特征值而进行分类了。• 其中,是由人们去观察而萃取特征的,然后才递交给AI去分类,这通称
    发表于 10-30 14:17

    AI概论: <TensorFlow + Excel>可操作教案(Part-C:AI(机器)是如何学习呢?)

    任务十四:从您孰悉的出发任务十五:认识AI术语-- 权重(Weight)任务十六:简单的权重运算-- 两两相乘&求和任务十七:训练(机器学习)-- AI开始任务十八:创作您的
    发表于 12-02 14:12

    最值得学习机器学习编程语言

    如果你对人工智能和机器学习感兴趣,而且正在积极地规划着自己的程序员职业生涯,那么你肯定面临着一个问题:你应该学习哪些编程语言,才能真正了解并掌握 AI
    发表于 03-02 06:22

    AI机器学习历程经验教训总结

    我最近有幸与几位AI /机器学习专家一起参加了小组讨论。 有很多伟大的问题,但大多数与如何在大型组织中最有效地建立AI /机器
    的头像 发表于 05-03 18:06 2298次阅读

    AI+机器学习:推动AI应用产业化,加快机器学习步伐

    毫不客气地说,人工智能(AI)和机器学习(ML)已然“渗透”到了各行各业,企业们期待通过机器学习基础架构平台,以推动人工智能在业务中的利用。
    的头像 发表于 07-03 11:45 2830次阅读

    赛灵思AI引擎简介

    在部分赛灵思 Versal ACAP 中包含了 AI 引擎。这些 AI 引擎可排列组合为一组与内存、数据流和级联接口相连的二维AI
    的头像 发表于 09-03 09:35 3408次阅读

    火山引擎机器学习平台与NVIDIA加深合作

    随着 AI 在医疗健康和生命科学领域应用的不断增加,GPU 算力的需求迅猛增长。火山引擎机器学习平台在 NVIDIA A100 Tensor Core GPU 的硬件基础架构之上,基于
    的头像 发表于 07-05 08:59 981次阅读

    AI引擎架构和阵列编程要求

    Versal AI Core 系列可借助 AI 引擎提供突破性的 AI 推断加速。此系列应用范围广泛,包括用于云端动态工作负载以及超高带宽网络,同时还可提供高级安全性功能。
    的头像 发表于 12-08 09:18 994次阅读

    Versal ACAP AI引擎编程环境用户指南

    电子发烧友网站提供《Versal ACAP AI引擎编程环境用户指南.pdf》资料免费下载
    发表于 09-14 10:10 0次下载
    Versal ACAP <b class='flag-5'>AI</b><b class='flag-5'>引擎</b>编程环境用户<b class='flag-5'>指南</b>

    AI引擎内核编码最佳实践指南

    电子发烧友网站提供《AI引擎内核编码最佳实践指南.pdf》资料免费下载
    发表于 09-14 14:58 0次下载
    <b class='flag-5'>AI</b><b class='flag-5'>引擎</b>内核编码最佳实践<b class='flag-5'>指南</b>

    AI引擎内核与计算图编程指南

    电子发烧友网站提供《AI引擎内核与计算图编程指南.pdf》资料免费下载
    发表于 01-03 10:50 0次下载
    <b class='flag-5'>AI</b><b class='flag-5'>引擎</b>内核与计算图编程<b class='flag-5'>指南</b>