【连载】深度学习笔记5：正则化与dropout-电子发烧友网

在笔记 4 中，详细阐述了机器学习中利用正则化防止过拟合的基本方法，对 L1 和 L2 范数进行了通俗的解释。为了防止深度神经网络出现过拟合，除了给损失函数加上 L2 正则化项之外，还有一个很著名的方法——dropout.

废话少说，咱们单刀直入正题。究竟啥是 dropout ? dropout 是指在神经网络训练的过程中，对所有神经元按照一定的概率进行消除的处理方式。在训练深度神经网络时，dropout 能够在很大程度上简化神经网络结构，防止神经网络过拟合。所以，从本质上而言，dropout 也是一种神经网络的正则化方法。

假设我们要训练了一个 4 层（3个隐层）的神经网络，该神经网络存在着过拟合。于是我们决定使用 dropout 方法来处理，dropout 为该网络每一层的神经元设定一个失活（drop）概率，在神经网络训练过程中，我们会丢弃一些神经元节点，在网络图上则表示为该神经元节点的进出连线被删除。最后我们会得到一个神经元更少、模型相对简单的神经网络，这样一来原先的过拟合情况就会大大的得到缓解。这样说似乎并没有将 dropout 正则化原理解释清楚，我们继续深究一下：为什么 dropout 可以可以通过正则化发挥防止过拟合的功能？

因为 dropout 可以随时随机的丢弃任何一个神经元，神经网络的训练结果不会依赖于任何一个输入特征，每一个神经元都以这种方式进行传播，并为神经元的所有输入增加一点权重，dropout 通过传播所有权重产生类似于 L2 正则化收缩权重的平方范数的效果，这样的权重压缩类似于 L2 正则化的权值衰减，这种外层的正则化起到了防止过拟合的作用。

所以说，总体而言，dropout 的功能类似于 L2 正则化，但又有所区别。另外需要注意的一点是，对于一个多层的神经网络，我们的 dropout 某层神经元的概率并不是一刀切的。对于不同神经元个数的神经网络层，我们可以设置不同的失活或者保留概率，对于含有较多权值的层，我们可以选择设置较大的失活概率（即较小的保留概率）。所以，总结来说就是如果你担心某些层所含神经元较多或者比其他层更容易发生过拟合，我们可以将该层的失活概率设置的更高一些。

说了这么多，总算大致把 dropout 说明白了。那 dropout 这种操作在实际的 python 编程中该如何实现呢？以一个三层的神经网络为例，首先我们需要定义一个 3 层的 dropout 向量，然后将其与保留概率 keep-prob 进行比较生成一个布尔值向量，再将其与该层的神经元激活输出值进行乘积运算，最后扩展上一步的计算结果，将其除以 keep-prob 即可。但在实际编程中就没说的这么容易了，我们需要对整个神经网络的计算过程进行重新定义，包括前向传播和反向传播的计算定义。

含 dropout 的前向计算定义如下：

def forward_propagation_with_dropout(X, parameters, keep_prob = 0.5):
  np.random.seed(1)  # retrieve parameters
  W1 = parameters["W1"]
  b1 = parameters["b1"]
  W2 = parameters["W2"]
  b2 = parameters["b2"]
  W3 = parameters["W3"]
  b3 = parameters["b3"]  # LINEAR -> RELU -> LINEAR -> RELU -> LINEAR -> SIGMOID
  Z1 = np.dot(W1, X) + b1
  A1 = relu(Z1)

  D1 = np.random.rand(A1.shape[0], A1.shape[1])  
  D1 = D1 < keep_prob                             
    A1 = np.multiply(D1, A1)                         
    A1 = A1 / keep_prob                             

    Z2 = np.dot(W2, A1) + b2
    A2 = relu(Z2)

    D2 = np.random.rand(A2.shape[0], A2.shape[1])   
  D2 = D2 < keep_prob                             
    A2 = np.multiply(D2, A2)                       
    A2 = A2 / keep_prob                           
    Z3 = np.dot(W3, A2) + b3
    A3 = sigmoid(Z3)

    cache = (Z1, D1, A1, W1, b1, Z2, D2, A2, W2, b2, Z3, A3, W3, b3)    
  return A3, cache

以上代码基本体现了 dropout 的实现的四步流程。

含 dropout 的反向传播计算定义如下：

def backward_propagation_with_dropout(X, Y, cache, keep_prob):

  m = X.shape[1]
  (Z1, D1, A1, W1, b1, Z2, D2, A2, W2, b2, Z3, A3, W3, b3) = cache

  dZ3 = A3 - Y
  dW3 = 1./m * np.dot(dZ3, A2.T)
  db3 = 1./m * np.sum(dZ3, axis=1, keepdims = True)
  dA2 = np.dot(W3.T, dZ3)

  dA2 = np.multiply(dA2, D2)  
  dA2 = dA2 / keep_prob    

  dZ2 = np.multiply(dA2, np.int64(A2 > 0))
  dW2 = 1./m * np.dot(dZ2, A1.T)
  db2 = 1./m * np.sum(dZ2, axis=1, keepdims = True)

  dA1 = np.dot(W2.T, dZ2)

  dA1 = np.multiply(dA1, D1)  
  dA1 = dA1 / keep_prob      

  dZ1 = np.multiply(dA1, np.int64(A1 > 0))
  dW1 = 1./m * np.dot(dZ1, X.T)
  db1 = 1./m * np.sum(dZ1, axis=1, keepdims = True)

  gradients = {"dZ3": dZ3, "dW3": dW3, "db3": db3,"dA2": dA2,         "dZ2": dZ2, "dW2": dW2, "db2": db2, "dA1": dA1, 
         "dZ1": dZ1, "dW1": dW1, "db1": db1}  
  return gradients

在定义反向传播计算函数时，我们必须丢弃和执行前向传播时一样的神经元。
最后带有 dropout 的分类效果如下所示：

所以，总结而言，dropout 就是在正常的神经网络基础上给每一层的每一个神经元加了一道概率流程来随机丢弃某些神经元以达到防止过拟合的目的。

本文来自《自兴动脑人工智能》项目部：凯文。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1797

文章
47867

浏览量
240854
机器学习

机器学习

+关注

关注
66

文章
8453

浏览量
133166
深度学习

深度学习

+关注

关注
73

文章
5521

浏览量
121663

BP神经网络与深度学习的关系

），是一种多层前馈神经网络，它通过反向传播算法进行训练。BP神经网络由输入层、一个或多个隐藏层和输出层组成，通过逐层递减的方式调整网络权重，目的是最小化网络的输出误差。二、深度学习的定义与发展

发表于 02-12 15:15 •171次阅读

NPU在深度学习中的应用

随着人工智能技术的飞速发展，深度学习作为其核心驱动力之一，已经在众多领域展现出了巨大的潜力和价值。NPU（Neural Processing Unit，神经网络处理单元）是专门为深度学习

发表于 11-14 15:17 •1007次阅读

GPU深度学习应用案例

GPU在深度学习中的应用广泛且重要，以下是一些GPU深度学习应用案例：一、图像识别图像识别是深度学习

发表于 10-27 11:13 •542次阅读

FPGA加速深度学习模型的案例

：DE5Net_Conv_Accelerator 应用场景：面向深度学习的开源项目，实现了AlexNet的第一层卷积运算加速。技术特点：采用了Verilog语言进行编程，与PCIe接口相集成，可以直接插入到

发表于 10-25 09:22 •419次阅读

AI大模型与深度学习的关系

人类的学习过程，实现对复杂数据的学习和识别。AI大模型则是指模型的参数数量巨大，需要庞大的计算资源来进行训练和推理。深度学习算法为AI大模型提供了核心的技术支撑，使得大模型能够更好地拟

发表于 10-23 15:25 •1474次阅读

FPGA做深度学习能走多远？

的发展前景较为广阔，但也面临一些挑战。以下是一些关于 FPGA 在深度学习中应用前景的观点，仅供参考： • 优势方面： • 高度定制化的计算架构：FPGA 可以根据深度

发表于 09-27 20:53

深度学习模型中的过拟合与正则化

测试数据或新数据上表现不佳的现象。为了解决这个问题，正则化（Regularization）技术应运而生，成为深度学习中不可或缺的一部分。本文将从过拟合的原因、表现、

发表于 07-09 15:56 •1171次阅读

深度学习中的时间序列分类方法

时间序列分类（Time Series Classification, TSC）是机器学习和深度学习领域的重要任务之一，广泛应用于人体活动识别、系统监测、金融预测、医疗诊断等多个领域。随着深度

发表于 07-09 15:54 •1232次阅读

深度学习与nlp的区别在哪

深度学习和自然语言处理（NLP）是计算机科学领域中两个非常重要的研究方向。它们之间既有联系，也有区别。本文将介绍深度学习与NLP的区别。深度

发表于 07-05 09:47 •1090次阅读

深度神经网络的设计方法

的构建，还包括激活函数的选择、优化算法的应用、正则化技术的引入等多个方面。本文将从网络结构设计、关键组件选择、优化与正则化策略、以及未来发展趋势四个方面详细探讨

发表于 07-04 13:13 •593次阅读

深度学习的模型优化与调试方法

深度学习模型在训练过程中，往往会遇到各种问题和挑战，如过拟合、欠拟合、梯度消失或爆炸等。因此，对深度学习模型进行优化与调试是确保其性能优越的关键步骤。本文将从数据预处理、模型设计、超参

发表于 07-01 11:41 •1059次阅读

深度学习与传统机器学习的对比

在人工智能的浪潮中，机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步，为众多领域带来了革命性的变化。然而，尽管它们都属于机器学习的范畴，但

发表于 07-01 11:40 •1578次阅读

深度解析深度学习下的语义SLAM

随着深度学习技术的兴起，计算机视觉的许多传统领域都取得了突破性进展，例如目标的检测、识别和分类等领域。近年来，研究人员开始在视觉SLAM算法中引入深度学习技术，使得

发表于 04-23 17:18 •1413次阅读

为什么深度学习的效果更好？

导读深度学习是机器学习的一个子集，已成为人工智能领域的一项变革性技术，在从计算机视觉、自然语言处理到自动驾驶汽车等广泛的应用中取得了显著的成功。深度

发表于 03-09 08:26 •712次阅读

allegro学习笔记

电子发烧友网站提供《allegro学习笔记.zip》资料免费下载

发表于 02-29 09:14 •1次下载

搜索历史

【连载】深度学习笔记5：正则化与dropout

评论

BP神经网络与深度学习的关系

NPU在深度学习中的应用

GPU深度学习应用案例

FPGA加速深度学习模型的案例

AI大模型与深度学习的关系

FPGA做深度学习能走多远？

深度学习模型中的过拟合与正则化

深度学习中的时间序列分类方法

深度学习与nlp的区别在哪

深度神经网络的设计方法

深度学习的模型优化与调试方法

深度学习与传统机器学习的对比

深度解析深度学习下的语义SLAM

为什么深度学习的效果更好？

allegro学习笔记