谷歌最便宜TPU值不值得买？TPU在执行神经网络计算方面的优势-电子发烧友网

谷歌本月推出千元级搭载Edge TPU芯片的开发板，性能令人期待。本文以可视化图形的方式，对比TPU、GPU和CPU，解释了TPU在执行神经网络计算方面的优势。

谷歌最便宜 TPU 值不值得买？

谷歌 Edge TPU 在本月初终于公布价格 —— 不足 1000 元人民币，远低于 TPU。

实际上，Edge TPU 基本上就是机器学习的树莓派，它是一个用 TPU 在边缘进行推理的设备。

Edge TPU(安装在 Coral 开发板上）

云 vs 边缘

Edge TPU显然是在边缘(edge)运行的，但边缘是什么呢？为什么我们不选择在云上运行所有东西呢？

在云中运行代码意味着你使用的CPU、GPU和TPU都是通过浏览器提供的。在云中运行代码的主要优点是，你可以为特定的代码分配必要的计算能力（训练大型模型可能需要大量的计算）。

边缘与云相反，意味着你是在本地运行代码(也就是说你能够实际接触到运行代码的设备)。在边缘运行代码的主要优点是没有网络延迟。由于物联网设备通常要频繁地生成数据，因此运行在边缘上的代码非常适合基于物联网的解决方案。

对比 CPU、GPU，深度剖析 TPU

TPU(Tensor Processing Unit, 张量处理器)是类似于CPU或GPU的一种处理器。不过，它们之间存在很大的差异。最大的区别是TPU是ASIC，即专用集成电路。ASIC经过优化，可以执行特定类型的应用程序。对于TPU来说，它的特定任务就是执行神经网络中常用的乘积累加运算。CPU和GPU并未针对特定类型的应用程序进行优化，因此它们不是ASIC。

下面我们分别看看 CPU、GPU 和 TPU 如何使用各自的架构执行累积乘加运算：

在 CPU 上进行累积乘加运算

CPU 通过从内存中读取每个输入和权重，将它们与其 ALU (上图中的计算器) 相乘，然后将它们写回内存中，最后将所有相乘的值相加，从而执行乘积累加运算。

现代 CPU 通过其每个内核上的大量缓存、分支预测和高时钟频率得到增强。这些都有助于降低 CPU 的延迟。

GPU 上的乘积累加运算

GPU 的原理类似，但它有成千上万的 ALU 来执行计算。计算可以在所有 ALU 上并行进行。这被称为 SIMD (单指令流多数据流)，一个很好的例子就是神经网络中的多重加法运算。

然而，GPU 并不使用上述那些能够降低延迟的功能。它还需要协调它的数千个 ALU，这进一步减少了延迟。

简而言之，GPU 通过并行计算来大幅提高吞吐量，代价是延迟增加。或者换句话说:

CPU 是一个强大而训练有素的斯巴达战士，而 GPU 就像一支庞大的农民大军，但农民大军可以打败斯巴达战士，因为他们人多。

读取 TPU 上的乘加操作的权重

TPU 的运作方式非常不同。它的 ALU 是直接相互连接的，不需要使用内存。它们可以直接提供传递信息，从而大大减少延迟。

从上图中可以看出，神经网络的所有权重都被加载到 ALU 中。完成此操作后，神经网络的输入将加载到这些 ALU 中以执行乘积累加操作。这个过程如下图所示：

TPU 上的乘加操作

如上图所示，神经网络的所有输入并不是同时插入 ALU 的，而是从左到右逐步地插入。这样做是为了防止内存访问，因为 ALU 的输出将传播到下一个 ALU。这都是通过脉动阵列 (systolic array) 的方式完成的，如下图所示。

使用脉动阵列执行乘加操作

上图中的每个灰色单元表示 TPU 中的一个 ALU (其中包含一个权重)。在 ALU 中，乘加操作是通过将 ALU 从顶部得到的输入乘以它的权重，然后将它与从左编得到的值相加。此操作的结果将传播到右侧，继续完成乘加操作。ALU 从顶部得到的输入被传播到底部，用于为神经网络层中的下一个神经元执行乘加操作。

在每一行的末尾，可以找到层中每个神经元的乘加运算的结果，而不需要在运算之间使用内存。

使用这种脉动阵列显著提高了 Edge TPU 的性能。

Edge TPU 推理速度超过其他处理器架构

TPU 还有一个重要步骤是量化 (quantization)。由于谷歌的 Edge TPU 使用 8 位权重进行计算，而通常使用 32 位权重，所以我们应该将权重从 32 位转换为 8 位。这个过程叫做量化。

量化基本上是将更精确的 32 位数字近似到 8 位数字。这个过程如下图所示：

量化

四舍五入会降低精度。然而，神经网络具有很好的泛化能力 (例如 dropout)，因此在使用量化时不会受到很大的影响，如下图所示。

非量化模型与量化模型的精度

量化的优势更为显著。它减少了计算量和内存需求，从而提高了计算的能源效率。

Edge TPU 执行推理的速度比任何其他处理器架构都要快。它不仅速度更快，而且通过使用量化和更少的内存操作，从而更加环保。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6210

浏览量
106214
机器学习

机器学习

+关注

关注
66

文章
8457

浏览量
133204
TPU

TPU

+关注

关注
0

文章
145

浏览量
20806

原文标题：一文读懂：谷歌千元级Edge TPU为何如此之快？

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

从TPU v1到Trillium TPU，苹果等科技公司使用谷歌TPU进行AI计算

，在训练尖端人工智能方面，大型科技公司正在寻找英伟达以外的替代品。不断迭代的谷歌TPU 芯片随着机器学习算法，特别是深度学习算法在

发表于 07-31 01:08 •3486次阅读

BP神经网络和卷积神经网络的关系

广泛应用的神经网络模型。它们各自具有独特的特点和优势，并在不同的应用场景中发挥着重要作用。以下是对BP神经网络和卷积神经网络关系的详细探讨，内容将涵盖两者的定义、原理、区别、联系以及应

发表于 07-10 15:24 •1786次阅读

BP神经网络和人工神经网络的区别

BP神经网络和人工神经网络（Artificial Neural Networks，简称ANNs）之间的关系与区别，是神经网络领域中一个基础且重要的话题。本文将从定义、结构、算法、应用及未来发展等多个

发表于 07-10 15:20 •1427次阅读

神经网络控制的优势与挑战

是一种模拟人脑神经元网络的计算模型，由大量的简单处理单元（神经元）组成，这些神经元通过权重连接在一起。神经网络通过学习输入数据的特征，实现对

发表于 07-09 09:47 •755次阅读

rnn是递归神经网络还是循环神经网络

：循环神经网络的基本概念循环神经网络是一种具有时间序列特性的神经网络，它能够处理序列数据，具有记忆功能。与传统的前馈神经网络不同，循环神经网络

发表于 07-05 09:52 •697次阅读

循环神经网络和卷积神经网络的区别

结构。它们在处理不同类型的数据和解决不同问题时具有各自的优势和特点。本文将从多个方面比较循环神经网络和卷积神经网络的区别。基本概念循环

发表于 07-04 14:24 •1557次阅读

循环神经网络和递归神经网络的区别

处理序列数据方面具有显著的优势，但它们在结构和工作原理上存在一些关键的区别。循环神经网络（RNN） 1.1 RNN的结构循环神经网络是一

发表于 07-04 14:19 •1078次阅读

深度神经网络与基本神经网络的区别

在探讨深度神经网络（Deep Neural Networks, DNNs）与基本神经网络（通常指传统神经网络或前向神经网络）的区别时，我们需

发表于 07-04 13:20 •1123次阅读

卷积神经网络与循环神经网络的区别

在深度学习领域，卷积神经网络（Convolutional Neural Networks, CNN）和循环神经网络（Recurrent Neural Networks, RNN）是两种极其重要

发表于 07-03 16:12 •3862次阅读

bp神经网络是深度神经网络吗

BP神经网络（Backpropagation Neural Network）是一种常见的前馈神经网络，它使用反向传播算法来训练网络。虽然BP神经网络

发表于 07-03 10:14 •987次阅读

bp神经网络和卷积神经网络区别是什么

BP神经网络（Backpropagation Neural Network）和卷积神经网络（Convolutional Neural Network，简称CNN）是两种不同类型的人工神经网络，它们

发表于 07-03 10:12 •1432次阅读

卷积神经网络和bp神经网络的区别

不同的神经网络模型，它们在结构、原理、应用等方面都存在一定的差异。本文将从多个方面对这两种神经网络进行详细的比较和分析。引言

发表于 07-02 14:24 •4908次阅读

计算

道哥的书籍值不值得买呢，这本书还没有看过，不知道写的怎么样

发表于 05-16 11:55

谷歌将推出第六代数据中心AI芯片Trillium TPU

在今日举行的I/O 2024开发者大会上，谷歌公司震撼发布了其第六代数据中心AI芯片——Trillium Tensor处理器单元（TPU）。据谷歌首席

发表于 05-15 11:18 •696次阅读

Groq推出大模型推理芯片超越了传统GPU和谷歌TPU

Groq推出了大模型推理芯片，以每秒500tokens的速度引起轰动，超越了传统GPU和谷歌TPU。

发表于 02-26 10:24 •1285次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

谷歌最便宜TPU值不值得买？TPU在执行神经网络计算方面的优势

评论

从TPU v1到Trillium TPU，苹果等科技公司使用谷歌TPU进行AI计算

BP神经网络和卷积神经网络的关系

BP神经网络和人工神经网络的区别

神经网络控制的优势与挑战

rnn是递归神经网络还是循环神经网络

循环神经网络和卷积神经网络的区别

循环神经网络和递归神经网络的区别

深度神经网络与基本神经网络的区别

卷积神经网络与循环神经网络的区别

bp神经网络是深度神经网络吗

bp神经网络和卷积神经网络区别是什么

卷积神经网络和bp神经网络的区别

计算

谷歌将推出第六代数据中心AI芯片Trillium TPU

Groq推出大模型推理芯片超越了传统GPU和谷歌TPU