深度学习的双下降现象解答-电子发烧友网

作者：Preetum Nakkiran，Gal Kaplun，Yamini Bansal，Tristan Yang，Boaz Barak，Ilya Sutskever

编译：ronghuaiyang

导读

深度学习中的双下降现象，可能大家也遇到过，但是没有深究，OpenAI这里给出了他们的解答。

我们展示了 CNN，ResNet 以及 transformers 中的双下降现象，随着模型的尺寸，数据集的大小以及训练时间的增加，performance 先提升，然后变差，然后再次提升。这种效果通常可以通过仔细的正则化来避免。虽然这种行为似乎是相当普遍的，但我们还没有完全理解它为什么会发生，并把对这种现象的进一步研究作为一个重要的研究方向。

深度学习的双下降现象解答

论文：https://arxiv.org/abs/1912.02292

包括 CNNs、ResNets、transformer 在内的许多现代深度学习模型，在不使用 early stopping 或正则化时，都表现出之前观察到的双下降现象。峰值发生在一个可以预见的“特殊的时刻”，此时模型刚好可以去拟合训练集。当我们增加神经网络参数的数量，刚开始的时候，测试误差减少，然后会增加，而且，模型开始能够拟合训练集，进行了第二次下降。

传统统计学家认为“模型越大越糟”的传统观点，以及“模型越大越好”的现代机器学习范式，都没有得到支持。我们发现双下降也发生在训练过程中。令人惊讶的是，我们发现这些现象会导致数据越多效果越差，此时在更大的训练集上训练一个深层网络的效果实际上更差。

模型的双下降

1. 在一段时间内，模型越大效果越差。

深度学习的双下降现象解答

模型的双下降现象会导致对更多数据的训练效果越差。在上面的图中，测试误差的峰值出现在插值阈值附近，此时模型刚好足够大到能拟合训练集。

在我们观察到的所有情况下，影响插值阈值的变化(如改变优化算法、训练样本数量或标签噪声量)也会相应地影响测试误差峰值的位置。在添加标签噪声的情况下，双下降现象最为突出，如果没有它，峰值会更小，很容易被忽略。添加标签噪声会放大这种普遍的行为，让我们可以很容易地进行研究。

样本的非单调性

2. 在一段时间内，样本越多效果越差。

深度学习的双下降现象解答

上面的图显示了在没有添加标签噪声的情况下，在语言翻译任务训练的 transformers。正如预期的那样，增加样本数量会使曲线向下移动，从而降低测试误差。然而，由于更多的样本需要更大的模型来拟合，增加样本的数量也会使插值阈值(以及测试误差的峰值)向右移动。对于中等大小的模型(红色箭头)，这两个效果结合在一起，我们可以看到在 4.5 倍的样本上进行训练实际上会影响测试性能。

训练 epoch 的双下降

3. 在一段时间内，训练时间越长，过拟合情况就越严重。

深度学习的双下降现象解答

上面的图显示了测试和训练误差与模型大小和优化步骤数量的关系。对于给定数量的优化步骤(固定 y 坐标)，测试和训练误差表现为随着模型的大小出现了双下降。对于给定的模型尺寸(固定的 x 坐标)，随着训练的进行，测试和训练误差不断地减小、增大、再减小，我们把这种现象称为 epoch-wise 的双下降。

一般情况下，当模型刚好能够拟合训练集时，会出现测试误差的峰值

我们的直觉是，对于插值阈值处的模型，实际上只有一个模型正好拟合了数据集，而强迫它拟合即使是稍微有一点噪声或错误的标签也会破坏它的全局结构。也就是说，没有既能在插值阈值处拟合训练集又能在测试集上表现良好的“好模型”。然而，在参数化的情况下，有许多模型可以拟合训练集，并且存在这样的好模型。此外，随机梯度下降法(SGD)的隐式偏差导致了这样好模型出现，其原因我们还不清楚。

我们把对深层神经网络的双下降机制仍的充分认识作为一个重要的开放性问题。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

深度学习

深度学习

+关注

关注
73

文章
5503

浏览量
121185
cnn

cnn

+关注

关注
3

文章
352

浏览量
22221

Nanopi深度学习之路(1)深度学习框架分析

学习，也就是现在最流行的深度学习领域，关注论坛的朋友应该看到了，开发板试用活动中有【NanoPi K1 Plus试用】的申请，介绍中NanopiK1plus的高大上优点之一就是“可运行深度

发表于 06-04 22:32

深度学习存在哪些问题？

深度学习常用模型有哪些？深度学习常用软件工具及平台有哪些？深度学习存在哪些问题？

发表于 10-14 08:20

深度学习模型是如何创建的？

具有深度学习模型的嵌入式系统应用程序带来了巨大的好处。深度学习嵌入式系统已经改变了各个行业的企业和组织。深度

发表于 10-27 06:34

什么是深度学习？使用FPGA进行深度学习的好处？

什么是深度学习为了解释深度学习，有必要了解神经网络。神经网络是一种模拟人脑的神经元和神经网络的计算模型。作为具体示例，让我们考虑一个输入图像并识别图像中对象类别的示例。这个例子对应机器

发表于 02-17 16:56

电磁现象的普遍规律_电动力学习题解答

电磁现象的普遍规律_电动力学习题解答

发表于 01-05 16:39 •0次下载

如何估算深度神经网络的最优学习率（附代码教程）

深度学习课程中学习相关知识。目前这门课程还没有对公众开放，但是现在网络上有去年的版本。学习率如何影响训练？深度

发表于 12-07 11:05 •2481次阅读

深度学习领域Facebook等巨头在2017都做了什么

过去一年间，谷歌、Facebook、微软等巨头加持下，深度学习框架格局发生了极大改变，深度学习领域Facebook等巨头在2017都做了什么，我们一一来

发表于 01-02 10:19 •2828次阅读

深度学习和机器学习深度的不同之处浅谈深度学习的训练和调参

近年来，深度学习作为机器学习中比较火的一种方法出现在我们面前，但是和非深度学习的机器学习相比（我

发表于 05-02 10:30 •4332次阅读

深度学习是什么？了解深度学习难吗?让你快速了解深度学习的视频讲解

本深度学习是什么？了解深度学习难吗?让你快速了解深度学习的视频讲解本文档视频让你4分钟快速了解

发表于 08-23 14:36 •16次下载

深度强化学习已经达到了尽头？

不可否认，深度学习的热度已经大大下降，赞美深度学习作为AI终极算法的推文少得多了，而且论文正在变得不那么“革命”，现在大家换了个词，叫：进化

发表于 04-29 08:56 •3380次阅读

读懂深度学习，走进“深度学习+”阶段

人工智能的概念在1956年就被提出，如今终于走入现实，离不开一种名为“深度学习”的技术。深度学习的运作模式，如同一场传话游戏。给神经网络输入数据，对数据的特征进行描述，在神经网络中层层

发表于 01-14 23:34 •894次阅读

深度学习算法简介深度学习算法是什么深度学习算法有哪些

深度学习算法简介深度学习算法是什么?深度学习算法有哪些? 作为一种现代化、前沿化的技术，

发表于 08-17 16:02 •8913次阅读

什么是深度学习算法？深度学习算法的应用

什么是深度学习算法？深度学习算法的应用深度学习算法被认为是人工智能的核心，它是一种模仿人类大脑

发表于 08-17 16:03 •2165次阅读

深度学习框架是什么？深度学习框架有哪些？

深度学习框架是什么？深度学习框架有哪些？深度学习框架是一种软件工具，它可以帮助开发者轻松快速

发表于 08-17 16:03 •2752次阅读

深度学习框架和深度学习算法教程

深度学习框架和深度学习算法教程深度学习是机器学习领

发表于 08-17 16:11 •1089次阅读

搜索历史

深度学习的双下降现象解答

评论

Nanopi深度学习之路(1)深度学习框架分析

深度学习存在哪些问题？

深度学习模型是如何创建的？

什么是深度学习？使用FPGA进行深度学习的好处？

电磁现象的普遍规律_电动力学习题解答

如何估算深度神经网络的最优学习率（附代码教程）

深度学习领域Facebook等巨头在2017都做了什么

深度学习和机器学习深度的不同之处浅谈深度学习的训练和调参

深度学习是什么？了解深度学习难吗?让你快速了解深度学习的视频讲解

深度强化学习已经达到了尽头？

读懂深度学习，走进“深度学习+”阶段

深度学习算法简介深度学习算法是什么深度学习算法有哪些

什么是深度学习算法？深度学习算法的应用

深度学习框架是什么？深度学习框架有哪些？

深度学习框架和深度学习算法教程