搭建一个神经网络的基本思路和步骤-电子发烧友网

笔记1中我们利用 numpy 搭建了神经网络最简单的结构单元：感知机。笔记2将继续学习如何手动搭建神经网络。我们将学习如何利用 numpy 搭建一个含单隐层的神经网络。单隐层顾名思义，即仅含一个隐藏层的神经网络，抑或是成为两层网络。

继续回顾一下搭建一个神经网络的基本思路和步骤：

定义网络结构（指定输出层、隐藏层、输出层的大小）

初始化模型参数

循环操作：执行前向传播/计算损失/执行后向传播/权值更新

定义网络结构

假设 X 为神经网络的输入特征矩阵，y 为标签向量。则含单隐层的神经网络的结构如下所示：

网络结构的函数定义如下：

def layer_sizes(X, Y): n_x = X.shape[0] # size of input layer n_h = 4 # size of hidden layer n_y = Y.shape[0] # size of output layer return (n_x, n_h, n_y)

其中输入层和输出层的大小分别与 X 和 y 的 shape 有关。而隐层的大小可由我们手动指定。这里我们指定隐层的大小为4。

初始化模型参数

假设 W1 为输入层到隐层的权重数组、b1 为输入层到隐层的偏置数组；W2 为隐层到输出层的权重数组，b2 为隐层到输出层的偏置数组。于是我们定义参数初始化函数如下：

def initialize_parameters(n_x, n_h, n_y): W1 = np.random.randn(n_h, n_x)*0.01 b1 = np.zeros((n_h, 1)) W2 = np.random.randn(n_y, n_h)*0.01 b2 = np.zeros((n_y, 1)) assert (W1.shape == (n_h, n_x)) assert (b1.shape == (n_h, 1)) assert (W2.shape == (n_y, n_h)) assert (b2.shape == (n_y, 1)) parameters = {"W1": W1, "b1": b1, "W2": W2, "b2": b2} return parameters

其中对权值的初始化我们利用了 numpy 中的生成随机数的模块 np.random.randn ，偏置的初始化则使用了 np.zero 模块。通过设置一个字典进行封装并返回包含初始化参数之后的结果。

前向传播

在定义好网络结构并初始化参数完成之后，就要开始执行神经网络的训练过程了。而训练的第一步则是执行前向传播计算。假设隐层的激活函数为 tanh 函数，输出层的激活函数为 sigmoid 函数。则前向传播计算表示为：

定义前向传播计算函数为：

def forward_propagation(X, parameters): # Retrieve each parameter from the dictionary "parameters" W1 = parameters['W1'] b1 = parameters['b1'] W2 = parameters['W2'] b2 = parameters['b2'] # Implement Forward Propagation to calculate A2 (probabilities) Z1 = np.dot(W1, X) + b1 A1 = np.tanh(Z1) Z2 = np.dot(W2, Z1) + b2 A2 = sigmoid(Z2) assert(A2.shape == (1, X.shape[1])) cache = {"Z1": Z1, "A1": A1, "Z2": Z2, "A2": A2} return A2, cache

从参数初始化结果字典里取到各自的参数，然后执行一次前向传播计算，将前向传播计算的结果保存到 cache 这个字典中，其中 A2 为经过 sigmoid 激活函数激活后的输出层的结果。

计算当前训练损失

前向传播计算完成后我们需要确定以当前参数执行计算后的的输出与标签值之间的损失大小。与笔记1一样，损失函数同样选择为交叉熵损失：

定义计算损失函数为：

def compute_cost(A2, Y, parameters): m = Y.shape[1] # number of example # Compute the cross-entropy cost logprobs = np.multiply(np.log(A2),Y) + np.multiply(np.log(1-A2), 1-Y) cost = -1/m * np.sum(logprobs) cost = np.squeeze(cost) # makes sure cost is the dimension we expect. assert(isinstance(cost, float)) return cost

执行反向传播

当前向传播和当前损失确定之后，就需要继续执行反向传播过程来调整权值了。中间涉及到各个参数的梯度计算，具体如下图所示：

根据上述梯度计算公式定义反向传播函数：

def backward_propagation(parameters, cache, X, Y): m = X.shape[1] # First, retrieve W1 and W2 from the dictionary "parameters". W1 = parameters['W1'] W2 = parameters['W2'] # Retrieve also A1 and A2 from dictionary "cache". A1 = cache['A1'] A2 = cache['A2'] # Backward propagation: calculate dW1, db1, dW2, db2. dZ2 = A2-Y dW2 = 1/m * np.dot(dZ2, A1.T) db2 = 1/m * np.sum(dZ2, axis=1, keepdims=True) dZ1 = np.dot(W2.T, dZ2)*(1-np.power(A1, 2)) dW1 = 1/m * np.dot(dZ1, X.T) db1 = 1/m * np.sum(dZ1, axis=1, keepdims=True) grads = {"dW1": dW1, "db1": db1, "dW2": dW2, "db2": db2} return grads

将各参数的求导计算结果放入字典 grad 进行返回。

这里需要提一下的是涉及到的关于数值优化方面的知识。在机器学习中，当所学问题有了具体的形式之后，机器学习就会形式化为一个求优化的问题。不论是梯度下降法、随机梯度下降、牛顿法、拟牛顿法，抑或是 Adam 之类的高级的优化算法，这些都需要花时间掌握去掌握其数学原理。

权值更新

迭代计算的最后一步就是根据反向传播的结果来更新权值了，更新公式如下：

由该公式可以定义权值更新函数为：

def update_parameters(parameters, grads, learning_rate = 1.2): # Retrieve each parameter from the dictionary "parameters" W1 = parameters['W1'] b1 = parameters['b1'] W2 = parameters['W2'] b2 = parameters['b2'] # Retrieve each gradient from the dictionary "grads" dW1 = grads['dW1'] db1 = grads['db1'] dW2 = grads['dW2'] db2 = grads['db2'] # Update rule for each parameter W1 -= dW1 * learning_rate b1 -= db1 * learning_rate W2 -= dW2 * learning_rate b2 -= db2 * learning_rate parameters = {"W1": W1, "b1": b1, "W2": W2, "b2": b2} return parameters

这样，前向传播-计算损失-反向传播-权值更新的神经网络训练过程就算部署完成了。当前了，跟笔记1一样，为了更加 python ic 一点，我们也将各个模块组合起来，定义一个神经网络模型：

def nn_model(X, Y, n_h, num_iterations = 10000, print_cost=False): np.random.seed(3) n_x = layer_sizes(X, Y)[0] n_y = layer_sizes(X, Y)[2] # Initialize parameters, then retrieve W1, b1, W2, b2. Inputs: "n_x, n_h, n_y". Outputs = "W1, b1, W2, b2, parameters". parameters = initialize_parameters(n_x, n_h, n_y) W1 = parameters['W1'] b1 = parameters['b1'] W2 = parameters['W2'] b2 = parameters['b2'] # Loop (gradient descent) for i in range(0, num_iterations): # Forward propagation. Inputs: "X, parameters". Outputs: "A2, cache". A2, cache = forward_propagation(X, parameters) # Cost function. Inputs: "A2, Y, parameters". Outputs: "cost". cost = compute_cost(A2, Y, parameters) # Backpropagation. Inputs: "parameters, cache, X, Y". Outputs: "grads". grads = backward_propagation(parameters, cache, X, Y) # Gradient descent parameter update. Inputs: "parameters, grads". Outputs: "parameters". parameters = update_parameters(parameters, grads, learning_rate=1.2) # Print the cost every 1000 iterations if print_cost and i % 1000 == 0: print ("Cost after iteration %i: %f" %(i, cost)) return parameters

以上便是本节的主要内容，利用 numpy 手动搭建一个含单隐层的神经网路。从零开始写起，打牢基础，待到结构熟练，原理吃透，再去接触一些主流的深度学习框架才是学习深度学习的最佳途径。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4772

浏览量
100857
函数

函数

+关注

关注
3

文章
4333

浏览量
62709

原文标题：深度学习笔记2：手写一个单隐层的神经网络

文章出处：【微信号：AI_shequ，微信公众号：人工智能爱好者社区】欢迎添加关注！文章转载请注明出处。

【PYNQ-Z2试用体验】基于PYNQ的神经网络自动驾驶小车 - 项目规划

` 本帖最后由枫雪天于 2019-3-2 23:12 编辑本次试用PYNQ-Z2的目标作品是“基于PYNQ的神经网络自动驾驶小车”。在之前的一个多月内，已经完成了整个项目初步实现，在接下来

发表于 03-02 23:10

卷积神经网络如何使用

卷积神经网络(CNN)究竟是什么，鉴于神经网络在工程上经历了曲折的历史，您为什么还会在意它呢? 对于这些非常中肯的问题，我们似乎可以给出相对简明的答案。

发表于 07-17 07:21

【案例分享】ART神经网络与SOM神经网络

今天学习了两个神经网络，分别是自适应谐振（ART）神经网络与自组织映射（SOM）神经网络。整体感觉不是很难，只不过一些最基础的概念容易理解不

发表于 07-21 04:30

如何移植一个CNN神经网络到FPGA中？

训练一个神经网络并移植到Lattice FPGA上，通常需要开发人员既要懂软件又要懂数字电路设计，是个不容易的事。好在FPGA厂商为我们提供了许多工具和IP，我们可以在这些工具和IP的

发表于 11-26 07:46

如何构建神经网络？

原文链接：http://tecdat.cn/?p=5725 神经网络是一种基于现有数据创建预测的计算系统。如何构建神经网络？神经网络包括：输入层：根据现有数据获取输入的层隐藏层：使用反

发表于 07-12 08:02

如何使用Keras框架搭建一个小型的神经网络多层感知器

本文介绍了如何使用Keras框架，搭建一个小型的神经网络-多层感知器，并通过给定数据进行计算训练，最好将训练得到的模型提取出参数，放在51单片机上进行运行。

发表于 11-22 07:00

轻量化神经网络的相关资料下载

视觉任务中，并取得了巨大成功。然而，由于存储空间和功耗的限制，神经网络模型在嵌入式设备上的存储与计算仍然是一个巨大的挑战。前面几篇介绍了如何在嵌入式AI芯片上部署神经网络：【嵌入式AI

发表于 12-14 07:35

图像预处理和改进神经网络推理的简要介绍

为提升识别准确率，采用改进神经网络，通过Mnist数据集进行训练。整体处理过程分为两步：图像预处理和改进神经网络推理。图像预处理主要根据图像的特征，将数据处理成规范的格式，而改进神经网络推理主要用于输出结果。整个过程分为两

发表于 12-23 08:07

神经网络移植到STM32的方法

将神经网络移植到STM32最近在做的一个项目需要用到网络进行拟合，并且将拟合得到的结果用作控制，就在想能不能直接在单片机上做神经网络计算，这

发表于 01-11 06:20

如何使用numpy搭建一个卷积神经网络详细方法和程序概述

内容将继续秉承之前 DNN 的学习路线，在利用Tensorflow搭建神经网络之前，先尝试利用numpy手动搭建卷积神经网络，以期对卷积神经网络

发表于 10-20 10:55 •6077次阅读

用Python从头实现一个神经网络来理解神经网络的原理3

有个事情可能会让初学者惊讶：神经网络模型并不复杂！『神经网络』这个词让人觉得很高大上，但实际上神经网络算法要比人们想象的简单。这篇文章完全是为新手准备的。我们会通过用Pytho

发表于 02-27 15:06 •738次阅读

卷积神经网络模型训练步骤

模型训练是将模型结构和模型参数相结合，通过样本数据的学习训练模型，使得模型可以对新的样本数据进行准确的预测和分类。本文将详细介绍 CNN 模型训练的步骤。 CNN 模型结构卷积神经网络的输入是一

发表于 08-21 16:42 •1740次阅读

卷积神经网络模型搭建

卷积神经网络模型搭建卷积神经网络模型是一种深度学习算法。它已经成为了计算机视觉和自然语言处理等各种领域的主流算法，具有很大的应用前景。本篇文章将详细介绍卷积

发表于 08-21 17:11 •969次阅读

建立神经网络模型的三个步骤

建立神经网络模型是一个复杂的过程，涉及到多个步骤和细节。以下是对建立神经网络模型的三个主要

发表于 07-02 11:20 •997次阅读

如何编写一个BP神经网络

传播过程，即误差从输出层反向传播回输入层，并据此调整网络参数。本文将详细阐述如何编写一个BP神经网络，包括网络结构设计、前向传播、损失函数计

发表于 07-11 16:44 •583次阅读

搜索历史

搭建一个神经网络的基本思路和步骤

评论

【PYNQ-Z2试用体验】基于PYNQ的神经网络自动驾驶小车 - 项目规划

卷积神经网络如何使用

【案例分享】ART神经网络与SOM神经网络

如何移植一个CNN神经网络到FPGA中？

如何构建神经网络？

如何使用Keras框架搭建一个小型的神经网络多层感知器

轻量化神经网络的相关资料下载

图像预处理和改进神经网络推理的简要介绍

神经网络移植到STM32的方法

如何使用numpy搭建一个卷积神经网络详细方法和程序概述

用Python从头实现一个神经网络来理解神经网络的原理3

卷积神经网络模型训练步骤

卷积神经网络模型搭建

建立神经网络模型的三个步骤

如何编写一个BP神经网络