0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用于智能边缘计算的嵌入式深度学习推理解决方案

我快闭嘴 来源:千家网 作者:蒙光伟 2020-09-04 12:21 次阅读

在过去的几年中,人工智能领域已进入高速增长阶段,这在很大程度上受诸如深度学习(DL)和强化学习(RL)之类的机器学习方法的推动。这些技术的组合展示了在解决各种问题方面的空前性能,这些问题从以超人的角度玩Go到像专家一样诊断癌症。

在我们以前的博客中,智能物联网和雾计算趋势以及物联网中无处不在的计算机视觉的兴起,我们谈到了物联网中DL的一些有趣用例。应用将是广泛而深入的。它们将在未来几十年内刺激对新型处理器的需求。

深度学习工作流程概述

DL / RL创新正以惊人的速度发生(每年在众多与AI相关的会议上发表数千篇有关新算法的论文)。尽管预测最终的解决方案为时尚早,但硬件公司正在争相构建处理器、工具和框架。他们试图利用多年研究人员的经验来确定DL工作流程中的痛点和瓶颈。

训练DL模型的平台

让我们从培训平台开始。基于图形处理单元(GPU)的系统通常是训练高级DL模型的选择。Nvidia早已意识到将GPU用于通用高性能计算的优势。

GPU有数百个计算核心,它们支持大量的硬件线程和高吞吐量的浮点计算。 Nvidia开发了Compute Unified Device Architecture(CUDA)编程框架,使GPU友好地供科学家和机器学习专家使用。

CUDA工具链改善了耗时问题,为研究人员提供了一种灵活而友好的方式来实现高度复杂的算法。几年前,Nvidia恰当地发现了DL的机会,并为大多数DL运营不断开发CUDA支持。 Caffe、Torch和Tensorflow等标准框架均支持CUDA。

在AWS之类的云服务中,开发人员可以选择使用CPU还是GPU(更具体地说是Nvidia GPU)。平台的选择取决于神经网络的复杂性、预算和时间。基于GPU的系统通常可以比CPU减少训练时间几倍,但价格更高。

GPU / CPU的替代品

替代品来了。 Khronos在2009年提出了OpenCL,这是一种用于在各种硬件(例如CPU、GPU、DSPFPGA)上进行并行计算的开放标准。它将使其他处理器(如AMD GPU)进入DL培训市场,为开发人员提供更多选择。

但是,它在DL库支持方面仍落后于CUDA。希望这种情况在未来几年内会有所改善。英特尔还通过收购Nervana开发了针对DL培训定制的处理器。

DL推理的竞争格局

DL推理是一个竞争激烈的市场。通常可以根据用例的要求在多个级别上部署应用:

云/企业:图像分类、网络安全、文本分析、NLP等。

智能网关:生物识别、语音识别、智能代理等。

边缘端点:移动设备、智能相机等。

云推理

在Google、Facebook、百度或阿里巴巴等互联网巨头的大力推动下,云推理市场将实现巨大的增长。例如,Google Cloud和Microsoft Azure提供了非常强大的图像分类、自然语言处理和面部识别API,开发人员可以轻松地将其集成到他们的云应用中。

云推理平台将需要可靠地支持数百万并发用户。扩展吞吐量的能力至关重要。此外,降低能耗是控制服务运营成本的另一个重中之重。

在云推理空间上,除GPU外,数据中心还使用FPGA或定制处理器来使云推理应用更具成本效益和功效。例如,Microsoft Project Brainwave使用英特尔FPGA来证明在运行诸如CNN、LSTM等的DL算法时的强大性能和灵活性。

FPGA具有优势。硬件逻辑、计算内核和内存配置可针对特定类型的神经网络进行定制,从而使其更有效地处理预训练模型。但是,一个缺点是与CPU或CUDA相比编程困难。如上一节所述,OpenCL将有助于使FPGA对软件开发人员更加友好。

除了FPGA之外,Google还制造了定制的处理器,称为TPU。它是一种专注于高效矩阵计算的ASIC。但是,仅Google自己的服务支持该功能。

用于智能边缘计算的嵌入式DL推理

在边缘,DL推理解决方案需要解决针对不同用例和市场的多种需求。

自动驾驶平台

自动驾驶平台目前是最热门的市场,最新的DL和RL方法正在应用中,以实现最高水平的自动驾驶。 Nvidia一直领导着从Tegra到Xavier的几类DL SoC市场。 例如,Xavier SoC内置于Nvidia的Drive PX平台中,该平台可实现多达320个TFLOP。 它的目标是5级自动驾驶。

移动处理器

另一个快速增长的领域是移动应用处理器。 DL启用了智能手机上以前无法实现的新功能。 一个例子是苹果将神经引擎集成到A11 Bionic芯片中,从而使其能够在iPhone X上添加高精度面部锁定。

中国芯片制造海思半导体还发布了麒麟970处理器,该处理器具有神经处理单元(NPU)。 华为的一些最新智能手机(图4)已经使用新的DL处理器进行了设计。 例如,使用NPU,智能手机相机会“知道”正在查看的内容,并会根据场景的主体(例如人、植物、风景等)自动调整相机设置。

新架构

值得一提的是,有一类新的处理器,称为神经形态处理器,它紧密模仿人类大脑神经元和突触的机制。他们可以实现一种称为“脉冲神经网络(SNN)”的神经网络,它可以在空间和时间域中学习。

原则上,与现有的DL架构相比,它们具有更高的能源效率,并且在解决在线机器学习问题方面具有优势。

IBM的TrueNorth和英特尔的Loihi基于神经形态架构。研究人员正在探索这些芯片的功能,显示出一些潜力。目前尚不清楚何时将新型处理器准备用于广泛的商业用途。诸如Applied Brain Research和Brainchip之类的许多初创公司也专注于这一领域,开发工具和IP。

这是一个有趣的时代

在短短的几年内,AI / DL / RL / ML已成为许多行业的重要工具。从IP、处理器、系统设计到工具链和软件方法论的底层生态系统已经进入了快速的创新周期。新的处理器将支持许多以前无法实现的新物联网应用。

但是,物联网和机器学习应用仍在不断发展。芯片设计人员和开发人员将需要几代处理器才能提出正确的架构组合,从而满足各种市场的需求。在以后的文章中,我们将更深入地研究各种垂直领域的计算平台。
责任编辑:tzh

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19348

    浏览量

    230262
  • 物联网
    +关注

    关注

    2910

    文章

    44752

    浏览量

    374577
  • 机器学习
    +关注

    关注

    66

    文章

    8425

    浏览量

    132770
  • 深度学习
    +关注

    关注

    73

    文章

    5507

    浏览量

    121276
收藏 人收藏

    评论

    相关推荐

    新手怎么学嵌入式?

    基本的概念。嵌入式系统是一种将计算机技术嵌入到特定设备中的系统,它通常具有特定的功能和有限的资源。你需要学习一些计算机基础知识,如数据结构、
    发表于 12-12 10:51

    什么是嵌入式人工智能

    嵌入式人工智能是指将人工智能技术应用于嵌入式系统中的一种技术。嵌入式系统是
    的头像 发表于 12-11 09:23 336次阅读
    什么是<b class='flag-5'>嵌入式</b>人工<b class='flag-5'>智能</b>

    嵌入式和人工智能究竟是什么关系?

    、连接主义和深度学习等不同的阶段。目前,人工智能已经广泛应用于各种领域,如自然语言处理、计算机视觉、智能
    发表于 11-14 16:39

    嵌入式学习建议

    很多弯路,也会使你对嵌入式系统感到畏惧。等你软件硬件基础打好了,再学习就感到容易理解。实际上,许多嵌入式应用并不需要操作系统。也可以根据实际项目需要,再
    发表于 10-22 11:41

    为何嵌入式控制器首选ARMxy?深度解析

    嵌入式ARM控制器是一种基于ARM架构的嵌入式系统控制器,广泛应用于各种嵌入式系统中,包括工业物联网关、边缘
    的头像 发表于 09-21 10:09 334次阅读
    为何<b class='flag-5'>嵌入式</b>控制器首选ARMxy?<b class='flag-5'>深度</b>解析

    AMD分析嵌入式边缘AI的发展

    随着人工智能( AI )技术广泛应用于各行各业,从云到边缘解决方案逐渐成为信息技术领域新的热点。嵌入式
    的头像 发表于 09-18 09:30 336次阅读
    AMD分析<b class='flag-5'>嵌入式</b><b class='flag-5'>边缘</b>AI的发展

    ARMxy ARM嵌入式计算机搭载 1 TOPS NPU支持深度学习

    ARMxy ARM嵌入式计算机BL410系列内置了1TOPS算力 NPU,它每秒可以执行高达一万亿次的浮点运算,这为复杂的图像处理和深度学习任务提供了充足的计算资源。在产品缺陷检测领域
    的头像 发表于 08-20 11:53 379次阅读
    ARMxy ARM<b class='flag-5'>嵌入式计算</b>机搭载 1 TOPS NPU支持<b class='flag-5'>深度</b><b class='flag-5'>学习</b>

    深度学习算法在嵌入式平台上的部署

    随着人工智能技术的飞速发展,深度学习算法在各个领域的应用日益广泛。然而,将深度学习算法部署到资源受限的
    的头像 发表于 07-15 10:03 1522次阅读

    AI引爆边缘计算变革,塑造嵌入式产业新未来AI引爆边缘计算变革,塑造嵌入式产业新未来——2024研华嵌入式

    中国北京,2024年5月30日 - 2024年研华嵌入式产业合作伙伴会议在北京·中关村皇冠假日酒店成功举办,现场参会嘉宾逾300人。会议以“AI引爆边缘计算变革,塑造嵌入式产业新未来”
    发表于 05-31 13:53 356次阅读
    AI引爆<b class='flag-5'>边缘</b><b class='flag-5'>计算</b>变革,塑造<b class='flag-5'>嵌入式</b>产业新未来AI引爆<b class='flag-5'>边缘</b><b class='flag-5'>计算</b>变革,塑造<b class='flag-5'>嵌入式</b>产业新未来——2024研华<b class='flag-5'>嵌入式</b>

    嵌入式学习-飞凌嵌入式ElfBoard ELF 1板卡-如何移植NCNN?

    计算机视觉和深度学习领域,NCNN(Netural Network Computer Vision)是一个轻量级的神经网络计算框架,被广泛应用于
    发表于 05-29 17:24

    AMD Versal SoC刷新边缘AI性能,单芯片方案驱动嵌入式系统

    电子发烧友网报道(文/黄晶晶)边缘AI应用需要更多的高性能计算和算力的支持,AMD的Versal和Zynq系列产品一直支持医疗、交通、智能零售、智能工厂、
    的头像 发表于 04-11 09:06 3785次阅读
    AMD Versal SoC刷新<b class='flag-5'>边缘</b>AI性能,单芯片<b class='flag-5'>方案</b>驱动<b class='flag-5'>嵌入式</b>系统

    AMD Versal SoC全新升级边缘AI性能,单芯片方案驱动嵌入式系统

    电子发烧友网报道(文/黄晶晶)边缘AI应用需要更多的高性能计算和算力的支持,AMD的Versal和Zynq系列产品一直支持医疗、交通、智能零售、智能工厂、
    的头像 发表于 04-09 21:32 1095次阅读
    AMD Versal SoC全新升级<b class='flag-5'>边缘</b>AI性能,单芯片<b class='flag-5'>方案</b>驱动<b class='flag-5'>嵌入式</b>系统

    嵌入式fpga是什么意思

    嵌入式FPGA是指将FPGA技术集成到嵌入式系统中的一种解决方案嵌入式系统是一种为特定应用而设计的计算机系统,它通常包括处理器、内存、外设
    的头像 发表于 03-15 14:29 1292次阅读

    嵌入式系统发展前景?

    应用领域。随着汽车电子化和智能化程度的不断提高,嵌入式系统将在汽车控制、安全系统、自动驾驶等方面发挥更为重要的作用。 工智能和机器学习技术的发展为
    发表于 02-22 14:09

    嵌入式学习步骤

    开发板上测试固件以及在实际设备上进行测试。 嵌入式系统的多样化发展,它将更为广泛地应用于各个领域,实现智能化、网络化、自动化的目标。同时,随着人工智能和机器
    发表于 02-02 15:24