在谷歌第一代可扩展分布式训练和推理系统取得成功后,谷歌大脑团队 DistBelief 与 Alphabet 合作,构建了用于大规模机器学习模型实施和部署的第二代系统 TensorFlow。
与 DistBelief相比,TensorFlow 的编程模型更加灵活,同时保持其高性能和对训练的支持以及在各种异构硬件平台上使用广泛的机器学习模型。正如谷歌所说,“伟大的软件最闪耀的是伟大的硬件,”谷歌的几个团队探索了用于机器学习应用程序的定制加速器的设计。这些努力促成了张量处理单元 (TPU) 的诞生,这是一种用于机器学习的定制专用集成电路,专为 TensorFlow 量身定制。
一年多来,谷歌在其数据中心验证了 TPU 的性能和效率,这些 TPU 的每瓦性能优化了一个数量级。TPU 芯片更能容忍降低的计算精度,这意味着每次操作只需要很少的晶体管,从而在相同的硅流片上每秒产生更多的操作。
在定量分析方面,与现代 CPU 和 GPU 相比,TPU 的性能提高了 15-30 倍,每瓦性能提高了 30-80 倍。通过这种方式,谷歌可以以更低的成本大规模设计和部署机器学习神经网络模型。谷歌 TPU 采用 28nm 工艺技术,运行频率为 700MHz,运行时功耗为 40W,支持 PCIe Gen3 x16 总线,提供 12.5GB/s 的带宽用于与其主机平台连接。
通往谷歌珊瑚之路
Google 推出了 Coral,这是一个用于构建 AI 应用程序的完整工具包,利用高效、私密、快速和离线的设备上推理功能。所有这一切都始于 Google Edge TPU 的发布,这是一种小型专用集成电路,可为低功耗设备提供高性能 ML 推理。
单个 ASIC 每秒可以执行 4 万亿次操作 (4 TOPS),同时需要 2 瓦的功率 (2 TOPS/watt)。Cloud TPU 与 Edge TPU 非常不同,因为它们非常适合训练可能需要数周时间才能在硬件上训练的大型复杂机器学习模型。边缘 TPU 专为前面提到的小型和低功耗设备而设计,是设备上 ML 推理的理想选择。
顾名思义,Google Edge TPU 仅使用第一代 Edge TPU 支持 TensorFlow Lite,该 TPU 能够执行卷积神经网络 (CNN) 等深度前馈神经网络,使其成为基于视觉的 ML 应用程序的不错选择。此 Edge TPU 可以执行加速机器学习训练,但仅限于保留最后一层。但是,API 可以通过反向传播和权重印记来执行加速迁移学习。
为了支持 Google TPU,制造商在 Coral 的引擎盖下设计了几个集成边缘 TPU 的硬件。列表中的一些流行的定制硬件包括开发板和 USB 加速器——被视为许多以人工智能为中心的应用程序实验的一部分。
来自澳大利亚联邦科学与工业研究组织 (CSIRO)、昆士兰大学和昆士兰科技大学的一组研究人员报告了与广泛采用的嵌入式处理器 Arm Cortex-A53 相比,Edge TPU 的能效性能研究结果[2]。结果表明,对于少于 5400 个输入节点和 0.15MB 模型大小的模型,Cortex-A53 比 Edge TPU 更有效。然而,随着模型大小的增加,Edge TPU 的性能优于 Cortex-A53——保持性能直到模型大小超过 8MB。一旦模型大小达到 13.5MB 左右,Cortex-A53 就会超过 Edge TPU,并且输入节点数超过 5400,Cortex-A53 就非常高效。
向前迈出一步
最近,谷歌在没有任何官方新闻稿或公告的情况下,推出了带有板载摄像头、麦克风和 Edge TPU 的新型 Coral 开发板 micro 的登陆页面。65x30 mm 微型开发板比著名的羽毛外形稍大,集成了 NXP i.MX RT1176 微控制器,具有 Cortex-A7 和 Cortex-A4 以及 Coral Edge TPU 协处理器,可提供 4 TOPS。Arm 处理器在单个硅流片中的组合提供了卓越的计算能力和多种媒体功能。
根据板载组件,内置摄像头和麦克风表明了用于原型设计和部署低功耗嵌入式系统(如对象检测和图像分类)的特殊设计。深度神经网络优化了由 Edge TPU 设备上机器学习推理支持的基于视觉的应用程序的实现。除了良好的输入/输出连接外,12 针 GPIO 接头使开发人员能够将 I/O 设备连接到 Coral 微开发板。
随着谷歌意识到需要满足极低功耗边缘设备的需求,以实现更快的数据处理和低延迟,谷歌发布了 Coral 开发板微,专注于微控制器驱动的 tinyML 项目。谷歌没有透露该产品定价和可用性的许多细节,这意味着感兴趣的开发者需要无限期地等待更明确的信息。
审核编辑:郭婷
-
处理器
+关注
关注
68文章
19347浏览量
230244 -
嵌入式
+关注
关注
5087文章
19145浏览量
306111 -
机器学习
+关注
关注
66文章
8425浏览量
132769
发布评论请先 登录
相关推荐
评论