0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度学习数学基础(三)之简单数学

电子设计 来源:电子设计 作者:电子设计 2020-12-10 19:13 次阅读
以下有部分公式,如果无法显示,请访问原文链接

从本文开始,之后的三四篇我们都将沐浴在数学的海洋里,拼命地扑腾,这个系列我会尽力以通俗易懂的方式来讲述这些数学知识。

1 函数

1.1 一次函数

在数学函数中最基本、最重要的就是一次函数。也就是函数之基础、根本。它在神经网络的世界里也同样重要。

1.1.1 一元一次函数

这个函数可以用下面的式表示。$a$被称为斜率(用来控制直线的方向),$b$被称为截距(用来控制直线和原点的偏移)
$$y=ax+b(a、b为常数,a/neq 0)$$

当x、y两个变量满足上述公式时,就称为变量y和变量x是一次函数关系

有两个变量$x$和$y$,如果对每个$x$都有唯一确定的$y$与它对应,则称$y$是$x$的函数,用 $y=f(x)$ 表示。此时,称$x$为自变量,$y$为因变量。

一次函数的图像是直线,如下图的直线所示。

示例:一次函数$y=2x+1$的图像如下图所示,截距为 1,斜率为 2。

1.1.2 多元一次函数

上面我们说的$y=ax+b$中有一个变量x,我们称为一元,如果有多个变量,我们就称为是多元的,比如下面的式子。(有几个变量就是几元的,也可以理解为维度)
$$y=ax_1+bx_2+...+c(a、b、c为常数,a/neq 0,b/neq 0)$$

当多个变量满足上述公式时,也称为变量y与变量是一次函数关系

就像我们之前说的神经元的加权输入$z$就可以表示为一次函数关系。如果把作为参数的权重$w_1、w_2、...、w_n$与偏置$b$看作常数,那么加权输入$z$h和$w_1、w_2、...、w_n$就是一次函数关系。
$$z=w_1x_1+w_2x_2+...+w_nx_n+b$$

1.2 二次函数

1.2.1 一元二次函数

刚刚我们接触了一次函数,下面说说二次函数。二次函数很重要,像我们经常使用的代价函数平方误差就是二次函数。二次函数由下面的式表示。
$$y=ax^2+bx+c(a、b、c为常数,a/neq 0)$$

二次函数的图像是抛物线,如下图所示。我们会发现抛物线的凹凸(开口朝向)是通过上方式子中$a$的正负来决定的。

  1. 当$a>0$时,抛物线向上开口,向下凸起
  2. 当$a<0$时,抛物线向下开口,向上凸起。

所以当$a>0$时该函数的$y$存在最小值。(该性质是后面讲的最小二乘法的基础)

示例:二次函数$y=(x-1)^2+2$的图像如右图所示。从图像中可以看到,当$x=1$时,函数取得最小值$y=2$。

1.2.2 多元二次函数

在我们实际的神经网络中需要处理更多变量的二次函数,这些二次函数统称多元二次函数,学会了一元二次函数,那么多元二次函数就不会太难了,下面我们以一个二元二次函数进行举例。

就像我们使用的代价函数平方误差c就是多元二次函数:
$$C=(x_1-t_1)^2$$

1.3 单位阶跃函数

之前,我们已经接触过它了,还记得吗,作为生物界神经元的激活函数。下面我们再说一遍吧。

单位阶跃函数,在原点处不连续,也就是在原点处不可导,由于这两个性质,所以单位阶跃函数不能成为主要的激活函数。

$$u(x)=/left//{ /begin{matrix} 0/quad (x<0) //// 1/quad (x/ge 0) /end{matrix} /right//} $$

单位阶跃函数的图像如下:

1.4 指数函数

什么是指数函数呢?我们之前讲了一次函数和二次函数,其实只要把变量放到幂的位置,其实就是指数函数了,具有以下形状的函数称为指数函数,常数$a$被称为函数的底数
$$y=a^x(a为正的常数,a/neq 1)$$

指数函数的图像是类似于撇的一种样式,如下所示

上面说到底数,就不得不说自然常数$e$,又叫纳皮尔数或欧拉数,它和派$/pi$类似,是一个无限不循环小数,它的值如下
$$e/approx 2.71828...$$

1.4.1 sigmoid函数

上面说到自然常数e,那么就不得不提到大名鼎鼎的自然指数函数$e^x$,它在数学界有自己的标识expexp(x)

而我们这里所要讲的是包含自然指数函数的复合函数sigmoid函数,它是神经网络中很具有代表性的激活函数。它的公式如下
$$/sigma (x)=/frac { 1 }{ 1+{ e }^{ -x } } =/frac { 1 }{ 1+exp(-x) } $$

通过下方的图像,我们可以看到,这个函数是光滑的,这就代表着这个函数处处可导,函数的取值在(0,1)区间内,那么这个函数值就可以用概率来解释

1.5 正态分布的概率密度函数

在计算机实际确定神经网络时,我们需要首先给权重和偏置设定初始值,这样神经网络才能进行计算。而这个初始值怎么取呢,这个时候我们就会用到一个非常有用的工具,叫做正态分布,这里就不长篇大论的解释啥是正态分布了,它也没什么高大上的地方,就是概率分布中的一种分布方式,但是这个分布方式是及其复合人类和自然界的,有兴趣的朋友可以去深入了解下。在这里只说一下,我们在给神经网络分配权重和偏置时分配一个服从正态分布的随机数,会比较容易取得好的结果。

正态分布是服从下面的概率密度函数的概率分布。公式如下
$$f/left( x /right) =/frac { 1 }{ /sqrt { 2/pi /sigma } } { e }^{ -/frac { { (x-/mu ) }^{ 2 } }{ 2{ /sigma }^{ 2 } } }$$

  1. 常数$/mu$:期望值(平均值)
  2. $/sigma$:标注差

它的图像如下,由于形状像教堂的钟,所以被称为叫钟形曲线

示例:试作出期望值$/mu$为0、标准差$/sigma$为1 的正态分布的概率密度函数的图像。
$$f/left( x /right)=/frac { 1 }{ /sqrt { 2/pi } } e^{ -/frac { x^{ 2 } }{ 2 } }$$

2 数列

2.1 数列的含义

数列就是数的序列,比如下面就是偶数列的数列
$$2,4,6,8,...$$

数列中的每一个数都被称为,排在第一位的项叫做首项,排在第二位的项叫做第2项,以此类推,排在第n位的项叫做第n项(是不是有点废话),神经网络中出现的数列都是有限的数列,这种数列叫做有穷数列,在有穷数列中最后一项称为末项,数列中的数量称为项数,而像上面的偶数列是无穷数列

示例:考察下面的有穷数列的首项,末项以及项数
$$1,3,5,7,9$$

这个数列的首项是1,末项是9,项数是5

2.2 数列的通项公式

数列中排在第$n$项的数通常用$a_n$表示,这里$a$是数列的名字,可随意取。当想要表达整个数列时,使用集合的符号来表示,如$/left//{a_n/right//}$

将数列的第$n$项用一个关于$n$的式子标书出来,那么这个式子被称为通项公式,比如偶数列的通项公式就是下方的式子
$$a_n=2n$$

示例:求以下数列$/left//{b_n/right//}$的通项公式
$$1,3,5,7,9$$
通项公式为$b_n=2n-1$

在神经网络中,神经元的加权输入和输出可以看成数列,比如使用下方的展示方式:

  1. 加权输入:第$l$层的第$j$个神经元的加权输入用$z_j^l$
  2. 输出:第$l$层的第$j$个神经元的输出用$a_j^l$

2.3 数列与递推关系式

除了通项公式外,数列还有另外一种表示方式,就是用相邻的关系式来表示,这种表示法被称为数列的递归定义

一般,如果已知首项$a_n$以及相邻的两项$a/_n、a/_{n+1}$的关系式,那么就可以确定这个序列,这个关系式叫递推关系式

示例:已知首项$a_1=1$以及关系式$a/_{n+1}=a/_n+2$,可以确定以下数列,这个关系式就是数列的递推关系式。
$$a/_{1}=1////a/_{2}=a/_{1+1}=a/_{1}+2=1+2=3////a/_{3}=a/_{2+1}=a/_{2}+2=3+2=5////a/_{4}=a/_{3+1}=a/_{3}+2=5+2=7////...////a/_{1}=1,a/_{n+1}=a/_{n}+2$$

2.4 联立递推关系式

下面我们演示一个问题,这个算法就是神经网络中的误差反向传播中所用到的数列的解题算法联立递推算法

示例:求以下两个地推关系是定义的数列前3项,其中$a_1=b_1=1$
$$/begin{cases} a/_{ n+1 }=a/_{ n }+2b/_{ n }+2 //// b/_{n+1}=2a/_{n}+3b/_{n}+1 /end{cases}$$

解题:
$$/begin{cases} a/_{ 2 }=a/_{ 1 }+2b/_{ 1 }+2=1+2/times 1=5 //// b/_2=2a/_1+3b/_1+1=2/times 1+3/times 1+1=6 /end{cases}$$
$$/begin{cases} a/_{ 3 }=a/_{ 2 }+2b/_{ 2 }+2=5+2/times 6+2=19 //// b/_{ 3 }=2a/_{ 2 }+3b/_{ 2 }+1=2/times 5+3/times 6+1=39 /end{cases}$$

像这样,将多个数列的递推关系式联合起来组成一组,称为联立递推关系式。在神经网络的世界中,所有神经元的输入和输出在数学上都可以认为是用联立递推式联系起来的。例如,我们来看看之前文章中看过的一个神经元的图片

在箭头前端标记的是权重,神经元的圆圈中标记的是神经单元的输出变量。于是,如果以$a(z)$为激活函数,$b_1^3$、$b_2^3$为第3层各个神经元的偏置,那么以下关系式成立:
$${ a }/_{ 1 }^{ 3 }=a({ w }/_{ 11 }^{ 3 }{ a }/_{ 1 }^{ 2 }+{ w }/_{ 12 }^{ 3 }{ a }/_{ 2 }^{ 2 }+{ w }/_{ 13 }^{ 3 }{ a }/_{ 3 }^{ 2 }+{ b }/_{ 1 }^{ 3 })$$
$${ a }/_{ 2 }^{ 3 }=a({ w }/_{ 21 }^{ 3 }{ a }/_{ 1 }^{ 2 }+{ w }/_{ 22 }^{ 3 }{ a }/_{ 2 }^{ 2 }+{ w }/_{ 23 }^{ 3 }{ a }/_{ 3 }^{ 2 }+{ b }/_{ 2 }^{ 3 })$$

根据这些关系式,第3层的输出$a_1^3$和$a_2^3$由第2层的输出$a_1^2$、$a_2^2$、$a_3^2$决定。也就是说,第2层的输出与第3层的输出由联立递推关系式联系起来。我们之后学的误差反向传播就是将这种观点应用在神经网络中。

为什么要将联立递推应用在神经网络中呢?

其实是因为对比计算冗长的偏导关系式,计算机更加擅长计算递推关系。

评论请转至原文链接
本文来自纳兰小筑,本文不予回复,评论请追溯原文

审核编辑:符乾江
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1793

    文章

    47535

    浏览量

    239327
  • 深度学习
    +关注

    关注

    73

    文章

    5511

    浏览量

    121355
收藏 人收藏

    评论

    相关推荐

    光电效应的数学模型及解析

    光电效应是指光照射在物质上,引起电子从物质表面逸出的现象。以下是光电效应的数学模型及详细解析: 一、光电效应的基本数学模型 光子能量公式 : 表达式:E = hν 含义:E代表光子的能量,h是普朗克
    的头像 发表于 11-25 13:46 1598次阅读

    GPU在深度学习中的应用 GPUs在图形设计中的作用

    。 GPU的并行计算能力 GPU最初被设计用于处理图形和图像的渲染,其核心优势在于能够同时处理成千上万的像素点。这种并行处理能力使得GPU非常适合执行深度学习中的大规模矩阵运算。在深度学习
    的头像 发表于 11-19 10:55 630次阅读

    Kimi发布新一代数学推理模型k0-math

    近日,Kimi正式推出了其新一代数学推理模型k0-math。据基准测试显示,该模型的数学能力可与全球领先的OpenAI o1系列中的o1-mini和o1-preview模型相媲美。 在针对中考、高考
    的头像 发表于 11-18 11:38 504次阅读

    傅里叶变换的数学原理

    傅里叶变换的数学原理主要基于一种将函数分解为正弦和余弦函数(或复指数函数)的线性组合的思想。以下是对傅里叶变换数学原理的介绍: 一、基本原理 傅里叶级数 :对于周期性连续信号,可以将其表示为傅里叶
    的头像 发表于 11-14 09:27 658次阅读

    GPU深度学习应用案例

    GPU在深度学习中的应用广泛且重要,以下是一些GPU深度学习应用案例: 一、图像识别 图像识别是深度学习
    的头像 发表于 10-27 11:13 444次阅读

    matlab 神经网络 数学建模数值分析

    matlab神经网络 数学建模数值分析 精通的可以讨论下
    发表于 09-18 15:14

    阿里Qwen2-Math系列震撼发布,数学推理能力领跑全球

    阿里巴巴近期震撼发布了Qwen2-Math系列模型,这一系列模型基于其强大的Qwen2 LLM构建,专为数学解题而生,展现了前所未有的数学推理能力。Qwen2-Math家族包括1.5B、7B及72B种规模,旨在满足不同场景下的
    的头像 发表于 08-12 15:19 776次阅读

    基于Python的深度学习人脸识别方法

    基于Python的深度学习人脸识别方法是一个涉及多个技术领域的复杂话题,包括计算机视觉、深度学习、以及图像处理等。在这里,我将概述一个基本的流程,包括数据准备、模型选择、训练过程、以及
    的头像 发表于 07-14 11:52 1302次阅读

    神经网络反向传播算法的原理、数学推导及实现步骤

    传播算法的原理、数学推导、实现步骤以及在深度学习中的应用。 神经网络概述 神经网络是一种受人脑启发的计算模型,由大量的神经元(或称为节点)组成,每个神经元与其他神经元通过权重连接。神经网络可以分为输入层、隐藏层和输出层。输入层接
    的头像 发表于 07-03 11:16 883次阅读

    数学建模神经网络模型的优缺点有哪些

    数学建模神经网络模型是一种基于人工神经网络的数学建模方法,它通过模拟人脑神经元的连接和信息传递机制,对复杂系统进行建模和分析。神经网络模型在许多领域得到了广泛应用,如图像识别、语音识别、自然语言处理
    的头像 发表于 07-02 11:36 966次阅读

    神经网络在数学建模中的应用

    数学建模是一种利用数学方法和工具来描述和分析现实世界问题的过程。神经网络是一种模拟人脑神经元结构和功能的计算模型,可以用于解决各种复杂问题。在数学建模中,神经网络可以作为一种有效的工具,帮助我们更好
    的头像 发表于 07-02 11:29 1028次阅读

    当AI与数学同时走下神坛

    2024年4月13日,一场特别的考试开考。数万名分散在全球各地的数学高手,在这一天早上8点打开了阿里巴巴全球数学竞赛预赛的试卷,他们有48小时,来攻克20分的选择题和100分的解答题。过去的6届
    的头像 发表于 06-23 08:05 111次阅读
    当AI与<b class='flag-5'>数学</b>同时走下神坛

    工业控制器的制作与数学的关系

    数学在工业控制器设计中的应用 工业控制器的设计涉及到多个方面,包括硬件设计、软件设计、系统架构设计等。在这些设计过程中,数学发挥着关键作用。 1.1 硬件设计中的数学应用 工业控制器的硬件设计主要
    的头像 发表于 06-16 14:34 543次阅读

    基于深度学习的缺陷检测方案

    图像预处理通常包括直方图均衡化、滤波去噪、灰度二值化、再次滤波几部分,以得到前后景分离的简单化图像信息;随后利用数学形态学、傅里叶变换、Gabor 变换等算法以及机器学习模型完成缺陷的标记与检测。
    发表于 04-23 17:23 990次阅读
    基于<b class='flag-5'>深度</b><b class='flag-5'>学习</b>的缺陷检测方案

    相SVPWM电压型逆变器的数学模型

    通过前面得出的dq坐标系下的数学模型,进一步可以得到dq坐标系下的变压器模型。通过这种模型可以帮助我们更好的去理解dq坐标系下的数学模型。
    发表于 04-06 04:27 3494次阅读
    <b class='flag-5'>三</b>相SVPWM电压型逆变器的<b class='flag-5'>数学</b>模型