资料介绍
十年前,微软创始人比尔 · 盖茨在其文章《A Robot in Every Home》里提出他对未来的憧憬:机器人将会像个人电脑一样进入每个家庭,为人类服务。随着人工智能以及智能硬件在过去几年的飞速发展,到了2016年的今天,笔者坚信各项技术已臻成熟,智能机器人很快进入商业化时代,盖茨的愿景也极有可能在5到10年内实现。
要想机器人有智能,必先赋予其感知能力。感知计算,特别是视觉以及深度学习,通常计算量比较大,对性能要求高。但是机器人受电池容量限制,可分配给计算的能源比较低。除此之外,由于感知算法不断发展,我们还需要不断更新机器人的感知处理器。与其它处理器相比,FPGA具有低能耗、高性能以及可编程等特性,十分适合感知计算。本文首先解析FPGA的特性,然后介绍FPGA对感知算法的加速以及节能,最后谈一谈机器人操作系统对FPGA的支持。
FPGA:高性能、低能耗、可编程
与其它计算载体如CPU与GPU相比,FPGA具有高性能、低能耗以及可硬件编程的特点。图1介绍了FPGA的硬件架构,每个FPGA主要由三个部分组成:输入输出逻辑,主要用于FPGA与外部其他部件,比如传感器的通信;计算逻辑部件,主要用于建造计算模块;以及可编程连接网络,主要用于连接不同的计算逻辑部件去组成一个计算器。在编程时,我们可以把计算逻辑映射到硬件上,通过调整网络连接把不同的逻辑部件连通在一起去完成一个计算任务。比如要完成一个图像特征提取的任务,我们会连接FPGA的输入逻辑与照相机的输出逻辑,让图片可以进入FPGA。然后,连接FPGA的输入逻辑与多个计算逻辑部件,让这些计算逻辑部件并行提取每个图片区域的特征点。最后,我们可以连接计算逻辑部件与FPGA的输出逻辑,把特征点汇总后输出。由此可见,FPGA通常把算法的数据流以及执行指令写死在硬件逻辑中,从而避免了CPU的Instruction Fetch与Instruction Decode 工作。
图1 FPGA硬件架构
高性能
虽然FPGA的频率一般比CPU低,但是可以用FPGA实现并行度很大的硬件计算器。比如一般CPU每次只能处理4到8个指令,在FPGA上使用数据并行的方法可以每次处理256个或者更多的指令,让FPGA可以处理比CPU多很多的数据量。另外,如上所述,在FPGA中一般不需要Instruction Fetch与Instruction Decode, 减少了这些流水线工序后也节省了不少计算时间。
为了让读者对FPGA加速有更好的了解,我们总结了微软研究院2010年对BLAS算法的FPGA加速研究。BLAS是矩阵运算的底层库,被广泛运用到高性能计算、机器学习等领域。在这个研究中,微软的研究人员分析了CPU、GPU以及FPGA对BLAS的加速以及能耗。图2对比了FPGA以及CPU、GPU执行GaxPy算法每次迭代的时间,相对于CPU,GPU与FPGA都达到了60%的加速。图中显示的是小矩阵运算,随着矩阵的增大,GPU与FPGA相对与CPU的加速比会越来越明显。
图2 GaxPy 算法性能对比 (单位:微秒)
低能耗
FPGA相对于CPU与GPU有明显的能耗优势,主要有两个原因。首先,在FPGA中没有Instruction Fetch与Instruction Decode,在Intel的CPU里面,由于使用的是CISC架构,仅仅Decoder就占整个芯片能耗的50%;在GPU里面,Fetch与Decode也消耗了10%~20%的能源。其次,FPGA的主频比CPU与GPU低很多,通常CPU与GPU都在1GHz到3GHz之间,而FPGA的主频一般在500MHz以下。如此大的频率差使得FPGA消耗的能源远低于CPU与GPU。
图3对比了FPGA以及CPU、GPU执行GaxPy算法每次迭代的能源消耗。可以发现CPU与GPU的能耗是相仿的,而FPGA的能耗只是CPU与GPU的8%左右。由此可见,FPGA计算比CPU快60%,而能耗只是CPU的1/12,有相当大的优势,特别在能源受限的情况下,使用FPGA会使电池寿命延长不少。
要想机器人有智能,必先赋予其感知能力。感知计算,特别是视觉以及深度学习,通常计算量比较大,对性能要求高。但是机器人受电池容量限制,可分配给计算的能源比较低。除此之外,由于感知算法不断发展,我们还需要不断更新机器人的感知处理器。与其它处理器相比,FPGA具有低能耗、高性能以及可编程等特性,十分适合感知计算。本文首先解析FPGA的特性,然后介绍FPGA对感知算法的加速以及节能,最后谈一谈机器人操作系统对FPGA的支持。
FPGA:高性能、低能耗、可编程
与其它计算载体如CPU与GPU相比,FPGA具有高性能、低能耗以及可硬件编程的特点。图1介绍了FPGA的硬件架构,每个FPGA主要由三个部分组成:输入输出逻辑,主要用于FPGA与外部其他部件,比如传感器的通信;计算逻辑部件,主要用于建造计算模块;以及可编程连接网络,主要用于连接不同的计算逻辑部件去组成一个计算器。在编程时,我们可以把计算逻辑映射到硬件上,通过调整网络连接把不同的逻辑部件连通在一起去完成一个计算任务。比如要完成一个图像特征提取的任务,我们会连接FPGA的输入逻辑与照相机的输出逻辑,让图片可以进入FPGA。然后,连接FPGA的输入逻辑与多个计算逻辑部件,让这些计算逻辑部件并行提取每个图片区域的特征点。最后,我们可以连接计算逻辑部件与FPGA的输出逻辑,把特征点汇总后输出。由此可见,FPGA通常把算法的数据流以及执行指令写死在硬件逻辑中,从而避免了CPU的Instruction Fetch与Instruction Decode 工作。
图1 FPGA硬件架构
高性能
虽然FPGA的频率一般比CPU低,但是可以用FPGA实现并行度很大的硬件计算器。比如一般CPU每次只能处理4到8个指令,在FPGA上使用数据并行的方法可以每次处理256个或者更多的指令,让FPGA可以处理比CPU多很多的数据量。另外,如上所述,在FPGA中一般不需要Instruction Fetch与Instruction Decode, 减少了这些流水线工序后也节省了不少计算时间。
为了让读者对FPGA加速有更好的了解,我们总结了微软研究院2010年对BLAS算法的FPGA加速研究。BLAS是矩阵运算的底层库,被广泛运用到高性能计算、机器学习等领域。在这个研究中,微软的研究人员分析了CPU、GPU以及FPGA对BLAS的加速以及能耗。图2对比了FPGA以及CPU、GPU执行GaxPy算法每次迭代的时间,相对于CPU,GPU与FPGA都达到了60%的加速。图中显示的是小矩阵运算,随着矩阵的增大,GPU与FPGA相对与CPU的加速比会越来越明显。
图2 GaxPy 算法性能对比 (单位:微秒)
低能耗
FPGA相对于CPU与GPU有明显的能耗优势,主要有两个原因。首先,在FPGA中没有Instruction Fetch与Instruction Decode,在Intel的CPU里面,由于使用的是CISC架构,仅仅Decoder就占整个芯片能耗的50%;在GPU里面,Fetch与Decode也消耗了10%~20%的能源。其次,FPGA的主频比CPU与GPU低很多,通常CPU与GPU都在1GHz到3GHz之间,而FPGA的主频一般在500MHz以下。如此大的频率差使得FPGA消耗的能源远低于CPU与GPU。
图3对比了FPGA以及CPU、GPU执行GaxPy算法每次迭代的能源消耗。可以发现CPU与GPU的能耗是相仿的,而FPGA的能耗只是CPU与GPU的8%左右。由此可见,FPGA计算比CPU快60%,而能耗只是CPU的1/12,有相当大的优势,特别在能源受限的情况下,使用FPGA会使电池寿命延长不少。
下载该资料的人也在下载
下载该资料的人还在阅读
更多 >
- 仿猫腿机器人跳跃能力评估分析 5次下载
- 基于TI处理器的外骨骼辅助康复机器人 15次下载
- 智能农业除草机器人研究分析综述 17次下载
- 上肢康复机器人现状及研究分析 7次下载
- 机器人无线充电电路设计 47次下载
- 基于Matlab的机构与机器人分析资料下载 11次下载
- 基于DSP和PC的农业机器人控制系统 17次下载
- 基于DSP的高压训线机器人数字化控制器 10次下载
- 基于DSP芯片的足球机器人实现与设计 26次下载
- 如何分析新型二自由度平动并联机器人的结构和运动学 7次下载
- 机器人设计教程之机器人控制和决策子系统 23次下载
- 基于ARM处理器的吸尘机器人与硬件设计 8次下载
- 基于FPGA的机器人图像监视系统 9次下载
- 多感知机器人夹持器设计 18次下载
- 仿人机器人足部姿态实时感知系统
- 基于智能制造的工业机器人应用实践 825次阅读
- 北京航空航天大学发布软体机器人智能感知系统最新进展 721次阅读
- 基于嵌入式处理器S698-T芯片实现机器人移动平台电控系统的设计 3760次阅读
- 基于LPC2114处理器实现人形机器人控制系统的设计 3335次阅读
- 视觉处理器让自适应机器人成为现实 1918次阅读
- 面对疫情 医疗机器人能帮上什么忙? 2126次阅读
- 服务机器人市场需求及前景分析 8310次阅读
- 机器人控制器有哪些类型_机器人控制器发展 1.1w次阅读
- 协作机器人的起源_为什么需要协作机器人 8127次阅读
- 工业机器人最常见的15种应用 1.4w次阅读
- 机器视觉的机器人取代四台传统的火焰处理机器人 3271次阅读
- 新宠七轴工业机器人有哪些优势 4204次阅读
- 如何设计机器人处理器? 8030次阅读
- 基于FPGA的NoC多核处理器的设计 4486次阅读
- 基于FPGA处理器的C编译指令 2584次阅读
下载排行
本周
- 1电子电路原理第七版PDF电子教材免费下载
- 0.00 MB | 1491次下载 | 免费
- 2单片机典型实例介绍
- 18.19 MB | 95次下载 | 1 积分
- 3S7-200PLC编程实例详细资料
- 1.17 MB | 27次下载 | 1 积分
- 4笔记本电脑主板的元件识别和讲解说明
- 4.28 MB | 18次下载 | 4 积分
- 5开关电源原理及各功能电路详解
- 0.38 MB | 11次下载 | 免费
- 6100W短波放大电路图
- 0.05 MB | 4次下载 | 3 积分
- 7基于单片机和 SG3525的程控开关电源设计
- 0.23 MB | 4次下载 | 免费
- 8基于AT89C2051/4051单片机编程器的实验
- 0.11 MB | 4次下载 | 免费
本月
- 1OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234313次下载 | 免费
- 2PADS 9.0 2009最新版 -下载
- 0.00 MB | 66304次下载 | 免费
- 3protel99下载protel99软件下载(中文版)
- 0.00 MB | 51209次下载 | 免费
- 4LabView 8.0 专业版下载 (3CD完整版)
- 0.00 MB | 51043次下载 | 免费
- 5555集成电路应用800例(新编版)
- 0.00 MB | 33562次下载 | 免费
- 6接口电路图大全
- 未知 | 30320次下载 | 免费
- 7Multisim 10下载Multisim 10 中文版
- 0.00 MB | 28588次下载 | 免费
- 8开关电源设计实例指南
- 未知 | 21539次下载 | 免费
总榜
- 1matlab软件下载入口
- 未知 | 935053次下载 | 免费
- 2protel99se软件下载(可英文版转中文版)
- 78.1 MB | 537793次下载 | 免费
- 3MATLAB 7.1 下载 (含软件介绍)
- 未知 | 420026次下载 | 免费
- 4OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234313次下载 | 免费
- 5Altium DXP2002下载入口
- 未知 | 233046次下载 | 免费
- 6电路仿真软件multisim 10.0免费下载
- 340992 | 191183次下载 | 免费
- 7十天学会AVR单片机与C语言视频教程 下载
- 158M | 183277次下载 | 免费
- 8proe5.0野火版下载(中文版免费下载)
- 未知 | 138039次下载 | 免费
评论
查看更多