0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度学习基础知识(4)

CHANBAEK 来源:小小研究生 作者:小小研究生 2023-05-16 17:30 次阅读

神经网络的学习:从训练数据中自动获取最优权重的过程,是使损失函数的值最小的权重参数

机器学习做手写数据识别:从图像中提取特征量,再用机器学习技术学习这些特征量的模式。 图像的特征量通常表示为向量的形式,机器视觉领域常用的特征量包括SIFT、SURF和HOG等。 对转换后的向量使用机器学习中的SVM、KNN等分类器进行学习。

深度学习直接学习图像本身,特征量也是由机器来学习的。 它的优点是对所有问题都可以用同样的流程来解决。

1、训练数据和测试数据

机器学习中,一般将数据分为训练数据和测试数据。 首先使用训练数据进行学习,寻找最优的参数,然后使用测试数据评价模型。 为了正确评价模型的泛化能力,必须划分训练数据和测试数据。 泛化能力是指处理未被观察过的数据的能力。 获得泛化能力是机器学习的最终目标。 仅仅使用一个数据集去学习和评价参数,是无法正确评价的。 可能顺利处理某个数据集,但无法处理其他数据集的情况。 只对某个数据集过度拟合的状态称为过拟合,避免过拟合也是机器学习的一个重要课题。

2、损失函数

神经网络通过损失函数寻找最优权重参数。 损失函数是表示神经网络性能的恶劣程度的指标。

1)均方误差

表示输出与训练数据的不匹配程度,希望得到最小的均方误差。

2)交叉熵误差

实际上只计算对应正确解标签的输出的自然对数。 交叉熵误差的值是由正确解标签所对应的输出结果决定的。 根据自然对数的图像,正确解标签对应的输出越大,交叉熵误差越接近0,当输出为1时,交叉熵误差为0。 使用代码实现时为了避免负无穷大需要添加一个微小值。

以上都是针对单个数据的损失函数,如果要求所有训练数据的损失函数的总和,需要写成下式

MNIST数据集的训练数据有60000个,如果求全部数据的损失函数和不太现实。 因此,需要从全部数据中选出一部分,神经网络的学习也是从训练数据中选出一部分(mini-batch)然后对每批数据进行学习。

从训练数据中随机抽取10笔数据的代码:

train_size=x_train.shape[0]
batch_size=10
batch_mask=np.random.choice(train_size,batch_size)
x_batch=x_train[batch_mask]
t_batch=t_train[batch_mask]

x_train形状为60000*784,所以train_size=60000。 使用np.random.choice()可以从指定的数字中随机选择想要的数字,在60000个数据中随机取10个数字。 后续只需要使用这个mini_batch计算损失函数。

3、mini_batch交叉熵误差的实现

def cross_entropy_error(y,t):
  if y.dim==1:
    t=t.reshape(1,t.size)
    y=y.reshape(1,y.size)
  batch_size=y.shape[0]
  return -np.sum(t*np.log(y+1e-7))/batch_size

当y的维度为1,即求单个数据的交叉熵误差时,需要改变数据的形状变为1*60000,当输入为mini-batch时,需要用batch的个数进行归一化,计算单个数据的平均交叉熵误差。

return -np.sum(np.log(y[np.arange(batch_size),t]+1e-7))/batch_size

如果训练数据是标签形式,改为上述代码。 np.arange(batch_size)会生成一个0到batch_size-1的数组,因为t中的标签是以0-9数字的方式进行存储的,所以y[np.arange(batch_size),t]生成了一个二维数组。

4、为什么要设定损失函数

在神经网络的学习中,寻找最优权重和偏置时,要寻找使损失函数的值尽可能小的参数,需要计算梯度并更新参数。 如果用识别精度作为指标,绝大多数地方的导数都会变为0导致参数无法更新。 因为识别精度的概念是在训练数据中正确识别的数量,稍微改变权重的值识别精度可能无法变化,即使变化也是离散的值。 阶跃函数不能作为激活函数的原因也是这样,对微小变化不敏感,且变化是不连续的。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4762

    浏览量

    100534
  • 函数
    +关注

    关注

    3

    文章

    4304

    浏览量

    62426
  • SVM
    SVM
    +关注

    关注

    0

    文章

    154

    浏览量

    32391
  • 机器学习
    +关注

    关注

    66

    文章

    8375

    浏览量

    132400
  • 深度学习
    +关注

    关注

    73

    文章

    5492

    浏览量

    120970
收藏 人收藏

    评论

    相关推荐

    C语言基础知识科普

    C语言是单片机开发中的必备基础知识,本文列举了部分STM32学习中比较常见的一些C语言基础知识
    发表于 07-21 10:58 1875次阅读

    怎么学习嵌入式系统基础知识

    如何学习嵌入式系统基础知识
    发表于 02-19 06:28

    通信基础知识教程

    通信基础知识 1、电信基础知识2、通信电源技术3、配线设备结构、原理与防护4、防雷基础知识5、EMC基础知识6、防腐蚀原理与技术7、产品安
    发表于 03-04 16:48 33次下载

    FPGA开发经验与技巧_基础知识学习篇(1)

    FLC1301T00 基础知识学习篇希望会对朋友们的学习有帮助!
    发表于 12-16 15:27 3次下载

    ADC【DSP基础知识

    ADC【DSP基础知识】,好好学习,从零开始学习DSP
    发表于 01-06 16:44 10次下载

    使用Eclipse基础知识

    使用Eclipse 基础知识 使用Eclipse 基础知识 适合初学者学习使用
    发表于 02-26 10:30 0次下载

    Verilog_HDL基础知识非常好的学习教程 (1)

    Verilog_HDL基础知识非常好的学习教程 (1)
    发表于 01-04 12:33 0次下载

    PLC基础知识学习,不看后悔

    PLC基础知识学习,不看后悔
    发表于 09-09 08:43 103次下载
    PLC<b class='flag-5'>基础知识</b><b class='flag-5'>学习</b>,不看后悔

    学习PLC必备四方面基础知识

    PLC本身就是控制电器线路,故学习PLC必备基础中以电工基础最重要。零基础学习PLC其实是从学习电工基础知识开始的,若是多年从事电工行业的老司机,可以直接跳过电工基础
    发表于 01-15 08:59 8495次阅读

    机器学习基础知识详细说明

    本文档的主要内容详细介绍的是机器学习基础知识详细说明。
    发表于 03-24 08:00 0次下载
    机器<b class='flag-5'>学习</b>的<b class='flag-5'>基础知识</b>详细说明

    直流稳压电路的基础知识学习课件免费下载

    本文档的主要内容详细介绍的是直流稳压电路的基础知识学习课件免费下载
    发表于 02-02 11:59 22次下载
    直流稳压电路的<b class='flag-5'>基础知识</b><b class='flag-5'>学习</b>课件免费下载

    了解一下机器学习中的基础知识

    机器学习中的基础知识 demi 在 周四, 03/07/2019 - 09:16 提交 机器学习中涉及到了很多的概念,当然要想了解机器学习的话就需要对这些
    的头像 发表于 03-31 17:08 3788次阅读

    51单片机学习 基础知识总结

    51单片机学习 基础知识总结
    发表于 11-11 19:21 39次下载
    51单片机<b class='flag-5'>学习</b>    <b class='flag-5'>基础知识</b>总结

    单片机基础知识学习笔记

    单片机基础知识学习笔记有关总线1.IIC总线2.SPI总线
    发表于 11-14 16:51 26次下载
    单片机<b class='flag-5'>基础知识</b><b class='flag-5'>学习</b>笔记

    深度学习基础知识分享

    深度学习也为其他科学做出了贡献。用于对象识别的现代卷积网络为神经科学家们提供了可以研究的视觉处理模型(DiCarlo,2013)。深度学习也为处理海量数据以及在科学领域作出有效的预测提
    发表于 09-05 10:30 1次下载