0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Flex Logix公司称它解决了深度学习的DRAM问题

IEEE电气电子工程师 来源:未知 作者:李倩 2018-11-08 14:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

深度学习有一个DRAM问题。设计用来实时处理复杂任务(比如,在汽车的备份摄像头视频流中分辨猫和孩子)的系统,不断地将构成神经网络内容的数据从存储器传送到处理器

根据初创公司Flex Logix的说法,问题并不是缺乏存储这些数据的空间,而是处理器和存储器之间缺乏带宽。为了将数百千兆比特的数据提供给处理器,有些系统需要4个甚至8个DRAM芯片,这既使占用的空间增加了不少,又消耗了大量的电能。Flex Logix表示,它为可重构芯片开发的互连技术和tile-based架构将使AI系统只需要1个DRAM芯片的带宽,且功耗仅为十分之一。

图片来源:Flex Logix

NMAX512tile的架构。

位于加州山景城的Flex Logix公司已经开始将一种新的嵌入式现场可编程门阵列(eFPGA)架构商业化。但经过一番探索后,其创始人之一Cheng C. Wang意识到,这项技术可以加快神经网络的速度。

神经网络由连接和表示连接强度的“权重”组成。另一位创始人Geoff Tate解释说,一个好的AI芯片需要两样东西。一种是一些做关键“推断”计算(即乘法和累加)的电路。“但更困难的是,你必须非常擅长引入所有这些权重,以便其乘法器总能得到它们需要的数据,从而进行所需的数学运算。Wang意识到我们在FPGA的互连方面所拥有的技术,他可以对它做适应性改造,来创建一种非常擅长快速高效地加载权重、高性能和低功耗的架构。”

需要快速连续地将数百万个权重加载到网络中,这就是每秒要做数万亿次到数十万亿次运算的AI系统为什么需要那么多DRAM芯片的原因。DRAM芯片上的每个引脚每秒最多可以传输4Gb数据,因此要达到所需的每秒数百Gb的数据传输速度,就需要多个芯片。

在为FPGA开发最初的技术时,Wang注意到,这些芯片有约80%的面积互连,因此他寻求一种能够缩小互连面积并考虑到更多逻辑的架构。他和他在加州大学洛杉矶分校的同事对一种称为folded-Beneš网络的电信架构做了适应性改造来完成这项工作。这使得FPGA架构看起来像一堆逻辑和SRAM的瓦片(tile)。

图片来源:Flex Logix

Flex Logix公司表示,在芯片中构建分布式SRAM可加快计算速度并降低功耗。

Tate说,在这种专用互连方案中使用分布式SRAM最终会对深度学习的DRAM带宽问题产生重大影响。“我们正在用芯片上的SRAM取代DRAM带宽。”

图片来源:Flex Logix

若干NMAXtile可以置于一个芯片上并连在一起,以扩大计算能力。

用于Flex Logix的AI产品的tile称为NMAX,采用了台积电的16纳米技术,面积不到2平方毫米。每个tile都由一组核心组成,这些核心这些核心负责关键的乘法和累加计算、控制数据的处理和流动的可编程逻辑以及SRAM。这涉及三种不同类型的互连技术。一种tile上的所有零件连接在一起。另一种将tile与位于tile之间的附加SRAM及外部的DRAM相连接。第三种将相邻的tile连接在一起。

在深度学习领域,很难进行真正的横向比较。但Flex Logix的分析显示,将使用1个DRAM芯片的模拟的6×6tile的NMAX512阵列与使用8个DRAM的Nvidia Tesla T4进行比较,结果是新架构每秒能识别4,600张图像,而Nvidia每秒识别3,920张图像。在一项名为YOLOv3的实时视频处理测试中,同样大小的NMAX阵列可达到每秒22万亿次运算,而使用的DRAM带宽是其他系统的十分之一。

Tate表示,首批NMAX芯片的设计将于2019年下半年送至代工厂以便进行制造。

Flex Logix将波音公司视作其高吞吐量嵌入式FPGA产品的客户之一。但Tate承认,与神经网络相比,嵌入式FPGA是个很难卖的产品。“嵌入式FPGA是一项很好的业务,但是推理可能很快就会超越它。”Tate说。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • DRAM
    +关注

    关注

    41

    文章

    2403

    浏览量

    189659
  • 神经网络
    +关注

    关注

    42

    文章

    4844

    浏览量

    108220
  • 深度学习
    +关注

    关注

    73

    文章

    5611

    浏览量

    124668

原文标题:Flex Logix公司称它解决了深度学习的DRAM问题

文章出处:【微信号:IEEE_China,微信公众号:IEEE电气电子工程师】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    深度学习为什么还是无法处理边缘场景?

    [首发于智驾最前沿微信公众号]虽然自动驾驶车辆已经完成了数百万公里的行驶测试,深度学习也已被普遍应用,但依然会在一些看似简单的场景中犯下低级错误。比如在遇到一些从未见到过的边缘场景时,系统可能会
    的头像 发表于 05-04 10:16 2173次阅读
    <b class='flag-5'>深度</b><b class='flag-5'>学习</b>为什么还是无法处理边缘场景?

    LPDDR4 DRAM 的 iMX8MP 的 DDR PHY 使用的 I/O 标准是什么?

    LPDDR4 DRAM 的 iMX8MP 的 DDR PHY 使用的 I/O 标准是什么?我在文档中找不到
    发表于 04-03 07:35

    EZ-USB® NX2LP-Flex™:灵活的USB NAND闪存控制器深度剖析

    EZ-USB® NX2LP-Flex™:灵活的USB NAND闪存控制器深度剖析 在当今数字化的时代,USB技术的发展日新月异,对于USB闪存控制器的需求也越来越高。Cypress的EZ-USB
    的头像 发表于 03-28 14:50 597次阅读

    Debian flex-installer 无法下载引导映像怎么解决?

    flex-installer 似乎不处理重定向,而是失败。 Can someone from NXP 请提供直接下载这些文件以及浏览目录以查看哪些文件实际上可供下载的能力,关于 Debian 安装过程以及任何其他固件内容
    发表于 03-03 08:15

    人工智能与机器学习在这些行业的深度应用

    自人工智能和机器学习问世以来,多个在线领域的数字化格局迎来了翻天覆地的变化。这些技术从诞生之初就为企业赋予竞争优势,而在线行业正是受其影响最为显著的领域。人工智能(AI)与机器学习(ML)的
    的头像 发表于 02-04 14:44 719次阅读

    机器学习深度学习中需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注数据、模型架构
    的头像 发表于 01-07 15:37 371次阅读
    机器<b class='flag-5'>学习</b>和<b class='flag-5'>深度</b><b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    创新的高带宽DRAM解决方案

    AI(人工智能)极大地增加了物联网边缘的需求。为了满足这种需求,Etron公司推出了世界上第一款扇入式晶圆级封装的DRAM——RPC DRAM®支持高带宽和更小的尺寸。凭借RPC DRAM
    的头像 发表于 01-05 14:29 316次阅读

    穿孔机顶头检测仪 机器视觉深度学习

    穿孔机顶头检测仪采用深度学习技术,通过不断的学习功能,越用越准确,为高质量生产保驾护航。 网站名称:保定市蓝鹏测控科技有限公司 可根据客户需求提供解决方案,定制产品。 QQ咨询:208
    发表于 12-22 14:33

    Flex Power Modules将产品制造扩展至欧洲

    Flex Power Modules已将其产品制造扩展到欧洲,在奥地利阿尔特霍芬的Flex工厂设立新的生产基地。此举将提高Flex Power Modules的电源模块产能,助力其更快速、更高效地响应AI数据中心客户快速增长的需
    的头像 发表于 12-16 13:51 862次阅读

    如何深度学习机器视觉的应用场景

    深度学习视觉应用场景大全 工业制造领域 复杂缺陷检测:处理传统算法难以描述的非标准化缺陷模式 非标产品分类:对形状、颜色、纹理多变的产品进行智能分类 外观质量评估:基于学习的外观质量标准判定 精密
    的头像 发表于 11-27 10:19 362次阅读

    PSRAM融合SRAM与DRAM优势的存储解决方案

    PSRAM(伪静态随机存储器)是一种兼具SRAM接口协议与DRAM内核架构的特殊存储器。既保留了SRAM无需复杂刷新控制的易用特性,又继承DRAM的高密度低成本优势。这种独特的设计
    的头像 发表于 11-11 11:39 1050次阅读

    如何在机器视觉中部署深度学习神经网络

    人士而言往往难以理解,人们也常常误以为需要扎实的编程技能才能真正掌握并合理使用这项技术。事实上,这种印象忽视该技术为机器视觉(乃至生产自动化)带来的潜力,因为深度学习并非只属于计算机科学家或程序员。 从头开始:什么
    的头像 发表于 09-10 17:38 1083次阅读
    如何在机器视觉中部署<b class='flag-5'>深度</b><b class='flag-5'>学习</b>神经网络

    深度学习对工业物联网有哪些帮助

    深度学习作为人工智能的核心分支,通过模拟人脑神经网络的层级结构,能够自动从海量工业数据中提取复杂特征,为工业物联网(IIoT)提供从数据感知到智能决策的全链路升级能力。以下从技术赋能、场景突破
    的头像 发表于 08-20 14:56 1260次阅读

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
    的头像 发表于 08-13 09:15 4404次阅读
    自动驾驶中Transformer大模型会取代<b class='flag-5'>深度</b><b class='flag-5'>学习</b>吗?