一个神经元的ResNet就是一个通用的函数逼近器-电子发烧友网

MIT CSAIL的研究人员发现，隐藏层仅有一个神经元的ResNet就是一个通用的函数逼近器，恒等映射确实加强了深度网络的表达能力。研究人员表示，这一发现还填补了全连接网络表达能力强大原因的理论空白。

深度神经网络是当前很多机器学习应用成功的关键，而深度学习的一大趋势，就是神经网络越来越深：以计算机视觉应用为例，从最开始的AlexNet，到后来的VGG-Net，再到最近的ResNet，网络的性能确实随着层数的增多而提升。

研究人员的一个直观感受是，随着网络深度的增大，网络的容量也变高，更容易去逼近某个函数。

因此，从理论方面，也有越来越多的人开始关心，是不是所有的函数都能够用一个足够大的神经网络去逼近？

在一篇最新上传Arxiv的论文里，MIT CSAIL的两位研究人员从ResNet结构入手，论证了这个问题。他们发现，在每个隐藏层中只有一个神经元的ResNet，就是一个通用逼近函数，无论整个网络的深度有多少，哪怕趋于无穷大，这一点都成立。

一个神经元就够了，这不是很令人兴奋吗？

从深度上理解通用逼近定理

关于神经网络的表达能力（representational power）此前已经有很多讨论。

上世纪80年代的一些研究发现，只要有足够多的隐藏层神经元，拥有单个隐藏层的神经网络能以任意精度逼近任意连续函数。这也被称为通用逼近定理（universal approximation theorem）。

但是，这是从“宽度”而非“深度”的角度去理解——不断增加隐藏层神经元，增加的是网络的宽度——而实际经验告诉我们，深度网络才是最适用于去学习能解决现实世界问题的函数的。

因此，这就自然引出了一个问题：

如果每层的神经元数量固定，当网络深度增加到无穷大的时候，通用逼近定理还成立吗？

北京大学Zhou Lu等人发表在NIPS 2017的文章《The Expressive Power of Neural Networks: A View from the Width》发现，对于用ReLU作为激活函数的全连接神经网络，当每个隐藏层至少有 d+4 个神经元（d表示输入空间）时，通用逼近定理就成立，但至多有 d 个神经元时，就不成立。

那么，换一种结构，这个条件还会成立吗？究竟是什么在影响深度网络的表达能力？

MIT CSAIL的这两位研究人员便想到了ResNet。

从何恺明等人2015年提出以来，ResNet甚至被认为是当前性能最佳的网络结构。ResNet的成功得益于它引入了快捷连接（shortcut connection），以及在此基础上的恒等映射（Identity Mapping），使数据流可以跨层流动。原问题就转化使残差函数（F(x)=H(x)-x）逼近0值，而不用直接去拟合一个恒等函数 H’(x)。

由于恒等映射，ResNet的宽度与输入空间相等。因此，作者构建了这样的结构，并不断缩小隐藏层，看看极限在哪里：

结果就如上文所说的那样，最少只需要一个神经元就够了。

作者表示，这进一步从理论上表明，ResNet的恒等映射确实增强了深度网络的表达能力。

例证：完全连接网络和ResNet之间的区别

作者给出了一个这样的toy example：我们首先通过一个简单的例子，通过实证探索一个完全连接网络和ResNet之间的区别，其中完全连接网络的每个隐藏层有 d 个神经元。例子是：在平面中对单位球（unit ball）进行分类。

训练集由随机生成的样本组成，其中

我们人为地在正样本和负样本之间创建了一个边界，以使分类任务更容易。我们用逻辑损失作为损失，其中是网络在第 i 个样本的输出。在训练结束后，我们描绘了各种深度的网络学习的决策边界。理想情况下，我们希望模型的决策边界接近真实分布。

图2：在单位球分类问题中，训练每个隐藏层（上面一行）宽度 d = 2 的全连接网络和每个隐藏层只有一个神经元的 ResNet（下面一行）得到的决策边界。全连接网络无法捕获真正的函数，这与认为宽度 d 对于通用逼近而言太窄（narrow）的理论是一致的。相反，ResNet很好地逼近了函数，支持了我们的理论结果。

图2显示了结果。对于完全连接网络（上面一行）而言，学习的决策边界对不同的深度具有大致相同的形状：逼近质量似乎没有随着深度增加而提高。虽然人们可能倾向于认为这是由局部最优性引起的，但我们的结果与文献[19]中的结果一致：

Proposition 2.1. 令为由一个具有ReLU激活的完全连接网络 N 定义的函数。用表示的正水平集。如果 N 的每个隐藏层至多有 d 个神经元，那么

, 其中 λ 表示 Lebesgue measure

换句话说，“narrow”的完全连接网络的水平集（level set）是无界的，或具有零测度。

因此，即使当深度趋于无穷大时，“narrow”的完全连接网络也不能逼近有界区域。这里我们只展示了 d=2 的情况，因为可以很容易地看到数据；在更高的维度也可以看到同样的观察结果。

ResNet的决策边界看起来明显不同：尽管宽度更窄，但ResNet表示了一个有界区域的指标。随着深度的增加，决策边界似乎趋于单位球，这意味着命题2.1不能适用于ResNet。这些观察激发了通用逼近定理。

讨论

在本文中，我们展示了每个隐藏层只有一个神经元的ResNet结构的通用逼近定理。这个结果与最近在全连接网络上的结果形成对比，对于这些全连接网络，在宽度为 d 或更小时，通用逼近会失败。

ResNet vs 全连接网络：

虽然我们在每个基本残差块（residual block）中只使用一个隐藏神经元来实现通用逼近，但有人可能会说，ResNet的结构仍然将identity传递到下一层。这个identity map可以算作 d 个隐藏单元，导致每个残差块共有 d+1 个隐藏单元，并且使得网络被看做一个宽度为 (d + 1)的完全连接网络。但是，即使从这个角度看，ResNet也相当于一个完全连接网络的压缩或稀疏版本。特别是，宽度为 (d + 1)的完全连接网络每层具有个连接，而ResNet中只有个连接，这要归功于identity map。完全连接网络的这种“过度参数化”或许可以解释为什么dropout对这类网络有用。

同样的道理，我们的结果表明宽度(d + 1)的完全连接网络是通用逼近器，这是新的发现。文献[19]中的结构要求每层d + 4个单元，在上下边界之间留有空隙。因此，我们的结果缩小了差距：宽度为(d + 1)的完全连接网络是通用逼近器，而宽度为d的完全连接网络不是。

为什么通用逼近很重要？如我们在论文第2节所述，宽度为d的完全连接网络永远不可能逼近一个紧凑的决策边界，即使我们允许有无限的深度。然而，在高维空间中，很难对得到的决策边界进行可视化和检查。通用逼近定理提供了一种完整性检查，并确保原则上我们能够捕获任何期望的决策边界。

训练效率：

通用逼近定理只保证了逼近任何期望函数的可能性，但它并不能保证我们通过运行SGD或任何其他优化算法能够实际找到它。理解训练效率可能需要更好地理解优化场景，这是最近受到关注的一个话题。

这里，我们试图提出一个稍微不同的角度。根据我们的理论，带有单个神经元隐藏层（one-neuron hidden layers）的ResNet已经是一个通用的逼近器。换句话说，每一层有多个单元的ResNet在某种意义上是模型的过度参数化，而过度参数化已经被观察到有利于优化。这可能就是为什么训练一个非常深的ResNet比训练一个完全连接的网络“更容易”的原因之一。未来的工作可以更严谨地分析这一点。

泛化：

由于一个通用逼近器可以拟合任何函数，人们可能会认为它很容易过度拟合。然而，通常可以观察到，深度网络在测试集上的泛化效果非常出色。对这一现象的解释与我们的论文是不相关的，但是，了解通用逼近能力是这一理论的重要组成部分。此外，我们的结果暗示了，前述的“过度参数化”也可能发挥作用。

总结：

总结而言，我们给出了具有单个神经元隐藏层的ResNet的通用逼近定理。这从理论上将ResNet和完全连接网络区分开来，并且，我们的结果填补了理解完全连接网络的表示能力方面的空白。在一定程度上，我们的结果在理论上激励了对ResNet架构进行更深入的实践。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4772

浏览量
100803
神经元

神经元

+关注

关注
1

文章
363

浏览量
18458
深度学习

深度学习

+关注

关注
73

文章
5503

浏览量
121200

原文标题：【一个神经元统治一切】ResNet 强大的理论证明

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

通过Python实现一个神经网络的实例解析

首先让我们看看神经网络的基本单位，神经元。神经元接受输入，对其做一些数据操作，然后产生输出。例如，这是一

发表于 01-29 11:52 •2899次阅读

采用单神经元自适应控制高精度空调系统仿真

具有自学习、自适应功能的神经元控制算法引入高精度空调控制领域，并通过MATLAB仿真，考察了系统的控制效果。仿真结果表明此控制方法具有超调小、抗干扰能力强、控温精度高的优点，从而为空调系统的高精度控制提出了一个新的途径。关键词：

发表于 03-18 22:28

如何去设计一种自适应神经元控制器？求过程

如何去设计一种自适应神经元控制器？求过程

发表于 05-17 06:56

一文详解CNN

（Fully connected dence layers），正如其名，指的是层中的每个节点都会连接它下一层的所有节点。理论上讲，只要神经元足够多（图中绿色圈），神经网络可以逼近任意

发表于 08-18 06:56

Batch，是深度学习中的一个重要概念

在深度学习中，采用sigmoid激活函数的隐藏层或者输出层的神经元通常在计算网络输入时加入一个偏移值，称为Bias。对于线性输出神经元，偏移

发表于 04-18 15:44 •9962次阅读

图文详解：神经网络的激活函数

什么是神经网络激活函数？激活函数有助于决定我们是否需要激活神经元。如果我们需要发射一个

发表于 07-05 11:21 •3788次阅读

神经元芯片（neuron chip）

功能，但是任何一个神经元的故障不会影响整个网络的性能。对开发者和集成商而言，神经元芯片的优势在于它的完整性。它内嵌的通信协议和处理器避免了

发表于 10-30 13:28 •1852次阅读

神经元的基本作用是什么信息

的作用。一、神经元的结构 神经元是一种高度分化的细胞，具有独特的形态和功能。神经元的基本结构包括细胞体、树突和轴突。细胞体：细胞体是

发表于 07-03 11:29 •931次阅读

神经元的结构及功能是什么

神经元是神经系统的基本结构和功能单位，它们通过电信号和化学信号进行信息传递和处理。神经元的结构和功能非常复杂，涉及到许多不同的方面。一、神经元

发表于 07-03 11:33 •1291次阅读

神经元的分类包括哪些

神经元是神经系统的基本功能单位，它们通过电信号和化学信号进行信息传递和处理。神经元的分类非常复杂，可以根据不同的标准进行分类。一、神经元的

发表于 07-03 11:36 •1301次阅读

人工神经元模型的基本原理及应用

人工神经元模型是人工智能和机器学习领域的一个重要概念，它模仿了生物神经元的工作方式，为计算机提供了处理信息的能力。一、人工

发表于 07-11 11:15 •912次阅读

人工智能神经元的基本结构

人工智能神经元的基本结构是一个复杂而深入的话题，涉及到计算机科学、数学、神经科学等多个领域的知识。引言人工智能（Artificial Intelligence，简称AI）是计算机科

发表于 07-11 11:19 •1381次阅读

人工神经元模型中常见的转移函数有哪些

人工神经元模型是神经网络的基础，它模拟了生物神经元的工作原理。在人工神经元模型中，转移函数起着至关重要的作用，它决定了

发表于 07-11 11:22 •1112次阅读

人工神经元模型的基本构成要素

人工神经元模型是人工智能领域中的一个重要概念，它模仿了生物神经元的工作方式，为机器学习和深度学习提供了基础。本文将介绍人工神经元模型的基本构

发表于 07-11 11:28 •1305次阅读

神经元模型激活函数通常有哪几类

神经元模型激活函数是神经网络中的关键组成部分，它们负责在神经元之间引入非线性，使得神经网络能够学习和模拟复杂的

发表于 07-11 11:33 •1075次阅读

搜索历史

一个神经元的ResNet就是一个通用的函数逼近器

评论

通过Python实现一个神经网络的实例解析

采用单神经元自适应控制高精度空调系统仿真

如何去设计一种自适应神经元控制器？求过程

一文详解CNN

Batch，是深度学习中的一个重要概念

图文详解：神经网络的激活函数

神经元芯片（neuron chip）

神经元的基本作用是什么信息

神经元的结构及功能是什么

神经元的分类包括哪些

人工神经元模型的基本原理及应用

人工智能神经元的基本结构

人工神经元模型中常见的转移函数有哪些

人工神经元模型的基本构成要素

神经元模型激活函数通常有哪几类