0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

【连载】深度学习笔记10:三维卷积、池化与全连接

人工智能实训营 2018-10-25 20:09 次阅读


在上一讲中,我们对卷积神经网络中的卷积操作进行了详细的解读,但仅仅是对二维图像,即通道数为 1 的图像(灰度图)进行了卷积,对于三维或者更高维的图像卷积显然并没有这么简单。

如果图像大小为 6*6*3,那么这里的 3 指的是三个颜色通道,你可以将其理解为 3 个 6*6 的图像的堆叠,如果要对此图像进行卷积的话,我们的滤波器也需要变成三维的,假设采用一个 3*3*3 的滤波器对其进行卷积(这里需要注意的是,滤波器的通道数一定要等于输入图像的通道数),根据 ((n+2p-f)/s)+1 的计算公式我们可以知道输出图像的大小为 4*4*1,由一个滤波器进行卷积之后输出图像的通道不是 3 而是 1 了。


那么究竟如何理解三通道的卷积过程?单通道的卷积操作我们已经知道,就是直接对感受野与滤波器进行元素相乘求和,那三通道呢?我们可以将 3*3*3 的滤波器想象为一个三维的立方体,为了计算立方体滤波器在输入图像上的卷积操作,我们首先将这个三维的滤波器放到左上角,让三维滤波器的 27 个数依次乘以红绿蓝三个通道中的像素数据,即滤波器的前 9 个数乘以红色通道中的数据,中间 9 个数乘以绿色通道中的数据,最后 9 个数乘以蓝色通道中的数据。将这些数据加总起来,就得到输出像素的第一个元素值。如下图所示:


这样做可能还不够。在实际图像处理中,仅靠单滤波器很难将复杂的图像特征进行充分提取。所以,通常而言,我们用来进行卷积的滤波器远不止一个。下面我们用两个滤波器对上述图像进行卷积操作。


我们用第一个滤波器进行卷积得到一个 4*4 的输出,然后用第二个滤波器进行卷积又得到一个 4*4 的输出,将这个输出放到第一个输出后面,形成了一个 4*4*2 的输出,这里的 2 的就是滤波器的个数。

关于多通道卷积的另一种理解类似于 DNN 中的标准神经网络中的 Z=Wx+b 的线性计算,其中 x 为输入的原始图像,W 为滤波器,b 偏差项,卷积过程就类似与标准神经网络的线性计算,完了之后利用激活函数进行激活。还有一个关键问题就是卷积层有多少参数,卷积层的参数通常在于滤波器 W,根据滤波器的大小,我们可以计算一个滤波器的参数数量为 f*f*nc,其中 nc 为通道熟量,那 k 个滤波器所含的参数数量则为 f*f*nc*k

卷积过程到此就差不多解释完了。我们再看 CNN 的另一个重要操作——池化(pooling)。简单来说,池化层是用来缩减模型大小,提高模型计算速度以及提高所提取特征的鲁棒性。池化操作通常有两种,一种是常用的最大池化(max pooling),另一种是不常用的平均池化(average pooling)。池化操作过程也非常简单,假设池化层的输入为一个 4*4 的图像,我们用最大池化对其进行池化,执行最大池化的树池是一个 2*2 的矩阵,执行过程就是将输入矩阵拆分为不同区域,对于 2*2 的输出而言,输出的每个元素都是其对应区域的最大元素值。


最大池化过程就像是应用了一个 2*2 的滤波器以步幅 2 进行区域最大化输出操作。所以简单而言,池化的参数就是滤波器的大小 f 和步幅 s,池化的效果就相当于对输入图像的高度和宽度进行缩小。值得注意的是,最大池化只是计算神经网络某一层的静态属性,中间并没有什么学习过程。

池化完成之后就是标准神经网络中的全连接层了。全连接层我们在 DNN 中有详细介绍,这里就不再赘述。总之,一个典型的卷积层通常包括卷积层-池化层和全连接层。

下一讲中,我们将一起尝试如何利用 numpy 实现一个简单的典型的卷积神经网络。

本文由《自兴动脑人工智能》项目部 凯文 投稿。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4760

    浏览量

    100479
  • 人工智能
    +关注

    关注

    1791

    文章

    46761

    浏览量

    237349
  • 卷积神经网络

    关注

    4

    文章

    366

    浏览量

    11841
收藏 人收藏

    评论

    相关推荐

    关于卷积神经网络,这些概念你厘清了么~

    。例如,最大值会选取窗口中的最大数据值而丢弃其它所有的值。这样,数据量不断减少,最终形成各个对象类别的唯一属性。 卷积的结果是大量
    发表于 10-24 13:56

    三维触摸面板-运用触感功能

    可以根据乘客的习惯和需求进行个性的设置。 方向盘控制 :在方向盘上集成三维触摸面板,驾驶员可以通过触摸和按压来控制车辆的巡航、多媒体、电话等功能,无需将手离开方向盘,进一步提高了驾驶的便利性和安全性
    发表于 09-18 13:55

    三维可视运用的主要技术

    三维可视技术是一种强大的工具,可用于呈现复杂的数据和概念,使人们能够更直观地理解信息。在当今数字化时代,三维可视已经成为许多领域中不可或缺的技术,包括工程、医学、地理信息系统、游戏
    的头像 发表于 07-19 13:56 232次阅读

    三维可视的魅力与应用

    三维可视是一种强大的工具,它融合了艺术、科学和技术,通过在三维空间中呈现数据、概念和想法,为人们提供了一种直观而生动的方式来理解和探索信息。这项技术在当今世界中的应用非常广泛,涵盖了科学、教育
    的头像 发表于 07-17 14:19 216次阅读

    神经网络中的卷积层、层与连接

    深度学习中,卷积神经网络(Convolutional Neural Network, CNN)是一种特别适用于处理图像数据的神经网络结构。它通过卷积层、
    的头像 发表于 07-11 14:18 4467次阅读

    卷积神经网络的工作原理和应用

    卷积神经网络(FCN)是深度学习领域中的一种特殊类型的神经网络结构,尤其在计算机视觉领域表现出色。它通过全局平均
    的头像 发表于 07-11 11:50 933次阅读

    卷积神经网络中层的作用

    深度学习领域,卷积神经网络(Convolutional Neural Network, CNN)以其卓越的图像处理和计算机视觉能力而广受欢迎。CNN由多个层组成,其中包括卷积层、
    的头像 发表于 07-03 15:58 1048次阅读

    卷积神经网络cnn中层的主要作用

    卷积神经网络(Convolutional Neural Network,CNN)是深度学习领域中一种重要的神经网络结构,广泛应用于图像识别、语音识别、自然语言处理等领域。在CNN中,
    的头像 发表于 07-02 14:50 773次阅读

    三维可视系统平台介绍及优势

    三维可视 系统平台是一种基于三维技术开发的软件系统,主要用于实现对三维空间中数据、模型、场景等内容的可视展示和操作。这样的系统平台在各个
    的头像 发表于 06-12 16:02 573次阅读
    <b class='flag-5'>三维</b>可视<b class='flag-5'>化</b>系统平台介绍及优势

    三维可视数据大屏的设计原理和技巧

    三维可视数据大屏设计面向交通、园区、城市、建筑、应急等领域的客户,以孪生可视能力赋能,提供行业解决方案。双渲染引擎,1:1还原真实世界,在模型运行流畅的基础上提供极佳的视觉效果。今天,古河云
    的头像 发表于 05-30 17:09 460次阅读

    一种利用光电容积描记(PPG)信号和深度学习模型对高血压分类的新方法

    层(Convolution、ReLU、LRN、Pooling)+3个连接层组成.它被认为是深度学习领域的突破性架构,是对传统深度
    发表于 05-11 20:01

    三维可视是怎么做的?特点有哪些?

    三维可视深入我们的生活当中,它能直观并且精准的展示企业的场景情况,但是很多小伙伴并不清楚三维可视是怎么做的?特点有哪些?今天,古河云科技小编就来给大家聊一聊这一问题。
    的头像 发表于 04-28 15:12 452次阅读
    <b class='flag-5'>三维</b>可视<b class='flag-5'>化</b>是怎么做的?特点有哪些?

    三维扫描服务项目-工厂三维扫描建模

    工厂三维扫描,厂房三维扫描,工厂数字服务,工厂三维扫描解决方案,逆向还原石化管线,完成工厂数据,为工厂设施的设计改造和维修维护提供原始
    的头像 发表于 04-26 09:46 491次阅读
    <b class='flag-5'>三维</b>扫描服务项目-工厂<b class='flag-5'>三维</b>扫描建模

    泰来三维|文物三维扫描,文物三维模型怎样制作

    文物三维扫描,文物三维模型怎样制作:我们都知道文物是不可再生的,要继续保存传承,需要文物三维数字保护,所以三维数字
    的头像 发表于 03-12 11:10 540次阅读
    泰来<b class='flag-5'>三维</b>|文物<b class='flag-5'>三维</b>扫描,文物<b class='flag-5'>三维</b>模型怎样制作

    基于深度学习三维重建技术

    多视图立体几何(Multi-View Stereo,MVS)是计算机视觉中重要的研究领域,也是迈入三维计算机视觉研究的重点问题。它通过利用多张互相重叠的图像恢复出原始三维场景的几何结构和纹理信息,是现实中拍摄照片的逆过程。
    的头像 发表于 12-04 10:08 866次阅读
    基于<b class='flag-5'>深度</b><b class='flag-5'>学习</b>的<b class='flag-5'>三维</b>重建技术