0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

多层分布式表征学习不仅有深度神经网络,同时还有决策树!

MqC7_CAAI_1981 来源:未知 作者:李倩 2018-06-05 17:10 次阅读

自去年周志华等研究者提出了「深度森林」以后,这种新型的层级表征方式吸引了很多研究者的关注。今日,南京大学的冯霁、俞扬和周志华提出了多层梯度提升决策树模型,它通过堆叠多个回归 GBDT 层作为构建块,并探索了其学习层级表征的能力。此外,与层级表征的神经网络不同,他们提出的方法并不要求每一层都是可微,也不需要使用反向传播更新参数。因此,多层分布式表征学习不仅有深度神经网络,同时还有决策树!

近十年来,深层神经网络的发展在机器学习领域取得了显著进展。通过构建分层或「深层」结构,该模型能够在有监督或无监督的环境下从原始数据中学习良好的表征,这被认为是其成功的关键因素。成功的应用领域包括计算机视觉语音识别、自然语言处理等 [1]。

目前,几乎所有的深层神经网络都使用具有随机梯度下降的反向传播 [2,3] 作为训练过程中更新参数的幕后主力军。实际上,当模型由可微分量(例如,具有非线性激活函数的加权和)组成时,反向传播似乎仍是当前的最佳选择。其他一些方法如目标传播 [4] 已经被作为训练神经网络的替代方法被提出,但其效果和普及还处于早期阶段。例如,[5_]_的研究表明,目标传播最多可达到和反向传播一样的效果,并且实际上常常需要额外的反向传播来进行微调。换句话说,老掉牙的反向传播仍然是训练神经网络等可微分学习系统的最好方法。

另一方面,探索使用非可微模块来构建多层或深度模型的可能性的需求不仅仅是学界的兴趣所在,其在现实应用上也有很大的潜力。例如,基于树的集成(例如随机森林 [6] 或梯度提升决策树(GBDT)[7] 仍然是多个领域中建模离散或表格数据的主要方式,为此在这类数据上使用树集成来获得分层分布式表征是个很有趣的研究方向。在这样的案例中,由于不能使用链式法则来传播误差,反向传播不再可行。这引发了两个基本的问题:首先,我们是否可以用非可微组件构建多层模型,从而中间层的输出可以被当作分布式表征?其次,如果是这样,如何在没有反向传播的帮助下,联合地训练这种模型?本文的目的就在于提供这种尝试。

近期 Zhou 和 Feng [8] 提出了深度森林框架,这是首次尝试使用树集成来构建多层模型的工作。具体来说,通过引入细粒度的扫描和级联操作(cascading operation),该模型可以构建多层结构,该结构具备适应性模型复杂度,且能够在多种类型的任务上取得有竞争力的性能。[8] 提出的 gcForest 模型利用了集成学习多样性增强的各种策略,然而该方法仅适用于监督学习设置。同时,该论文仍然不清楚如何利用森林来构建多层模型,并明确地测试其表征学习能力。由于很多之前的研究者认为,多层分布式表征 [9] 可能是深度神经网络成功的关键,为此我们应该对表征学习进行这样的探索。

该研究力求利用两个方面的优势:树集成的出色性能和分层分布式表征的表达能力(主要在神经网络中进行探索)。具体来说,本研究提出了首个多层结构,每层使用梯度提升决策树作为构造块,明确强调其表征学习能力,训练过程可以通过目标传播的变体进行联合优化。该模型可以在有监督和无监督的环境下进行训练。本研究首次证明,确实可以使用决策树来获得分层和分布式表征,尽管决策树通常被认为只能用于神经网络或可微分系统。理论论证和实验结果均表明了该方法的有效性。

3 提出的方法

这一部分机器之心并不详细介绍,具体的方法读者可参考原论文第三章。在一般的多层前馈结构中,每一层都是可微函数,因此我们可以使用反向传播传递梯度并高效地更新参数。但是当每一个层级函数都是不可微或者非参数化的,那么我们就不能使用反向传播。所以这一部分重点在于解决当层级函数 F_i 是梯度提升决策树时,其参数的更新方法。

训练神经网络时,初始化可以通过向每个参数分配随机高斯噪声来实现,然后该步骤移动到下一阶段,即参数更新。对于此处介绍的树结构模型来说,从所有可能的树配置分布中绘制随机树结构不是一件容易的事情,因此本论文没有随机初始化树结构,而是生成一些高斯噪声作为中间层的输出,并训练一些非常小的树来获取,其中索引 0 表示该初始化阶段获取的树结构。之后训练步骤移动到迭代更新正向映射和逆向映射。图 1 和算法 1 总结了该步骤。

图 1:训练 mGBDT 步骤的示意图。

值得注意的是,[23] 利用 GPU 加速训练 GBDT,Korlakai & Ran [24] 展示了一种实施 GBDT drop-out 技术的高效方式,进一步提升了性能。至于多维输出问题,使用 GBDT 的原始方法内存效率较低。Si 等人 [25] 提出了解决该问题的有效方式,可以在实践中将内存降低一个数量级。

4 实验

4.1 合成数据

为了进行完整性检查,研究者在合成数据集上训练两个小的多层 GBDT。

如图 2a 所示,研究者在 R^2 上得到了 1.5 万个点,分为两个类别(70% 用于训练,30% 用于测试)。用于训练的结构是(输入 − 5 − 3 − 输出),其中输入点在 R^2 中,输出是 0/1 分类预测。

研究者还进行了一项自动编码的无监督学习任务。生成了 1 万个 3D 点,如图 3a 所示。然后研究者用结构为(3 - 5 - 3)的 mGBDT 构建了一个自编码器,MSE 为重建损失。

重建输出如图 3b 所示。输入 3D 点的 5D 编码不可能直接可视化,这里研究者使用一种通用策略来可视化 2D 中 5D 编码的一些维度对,如图 4 所示。

4.2 收入预测

收入预测数据集 [28] 包含 48, 842 个样本(其中 32, 561 个是训练数据,16, 281 个是测试数据),这些样本是表格数据,具备类别属性和连续属性。每个样本包括一个人的社会背景,如种族、性别、工作种类等。这里的任务是预测这个人的年薪是否超过 50K。

图 5:收入数据集的特征可视化。

实验结果见图 6 和表 1。首先,基于同样的模型结构,多层 GBDT 森林(mGBDT)与使用反向传播或目标传播(target-prop)的 DNN 方法相比取得了最高的准确率。它的准确率还比单个 GBDT 或多个 GBDT 的简单堆叠更高。其次,与期望相反,NN^TargetProp 的收敛效果不如 NN^BackProp(与 [5] 的结果一致),而使用 GBDT 层的同样结构可以达到更低的训练损失,同时避免过拟合。

图 6:收入数据集学习曲线。

表 1:分类准确率对比。对于蛋白质数据集,使用 10 折交叉验证评估出的准确率以平均值 ± 标准差的形式表示。

4.3 蛋白质定位

蛋白质数据集 [28] 是一个 10 类别分类任务,仅包含 1484 个训练数据,其中 8 个输入属性中的每一个都是蛋白质序列的一个测量值,目标是用 10 个可能的选择预测蛋白质定位位点。

图 7:蛋白质数据集的特征可视化

10 折交叉验证的训练和测试曲线用平均值绘制在图 8 中。多层 GBDT(mGBDT)方法比神经网络方法收敛得快得多,如图 8a 所示。

图 8:蛋白质数据集学习曲线。

表 2:不同模型结构的测试准确率。使用 10 折交叉验证评估出的准确率以平均值 ± 标准差的形式表示。N/A 表示并未应用。

论文:Multi-Layered Gradient Boosting Decision Trees

摘要:多层表征被认为是深度神经网络的关键要素,尤其是在计算机视觉等认知任务中。尽管不可微模型如梯度提升决策树(gradient boosting decision tree,GBDT)是建模离散或表格数据的主要方法,但是它们很难整合这种表征学习能力。在本文中,我们提出了多层 GBDT 森林(mGBDT),通过堆叠多个回归 GBDT 层作为构建块,探索学习层级表征的能力。该模型可以使用层间目标传播的变体进行联合训练,无需推导反向传播和可微性。实验和可视化均证明该模型在性能和表征学习能力方面的有效性。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4773

    浏览量

    100874
  • 决策树
    +关注

    关注

    3

    文章

    96

    浏览量

    13564

原文标题:深度森林第三弹:周志华组提出可做表征学习的多层梯度提升决策树

文章出处:【微信号:CAAI-1981,微信公众号:中国人工智能学会】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    关于决策树,这些知识点不可错过

    `随着科学技术的发展,AI爱好者越来越多,除了一些精通AI的大神,还有很多的技术小白也对这方面感兴趣,他们想学习一些机器学习的入门知识。今天,讯飞开放平台就带来机器学习中的一个重要算法
    发表于 05-23 09:38

    深度学习与数据挖掘的关系

    深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。
    发表于 07-04 16:07

    决策树在机器学习的理论学习与实践

    决策树在机器学习的理论学习与实践
    发表于 09-20 12:48

    机器学习决策树介绍

    机器学习——决策树算法分析
    发表于 04-02 11:48

    深度神经网络是什么

    多层感知机 深度神经网络in collaboration with Hsu Chung Chuan, Lin Min Htoo, and Quah Jia Yong. 与许忠传,林敏涛和华佳勇合作
    发表于 07-12 06:35

    探讨一下深度学习在嵌入设备上的应用

    下面来探讨一下深度学习在嵌入设备上的应用,具体如下:1、深度学习的概念源于人工神经网络的研究,
    发表于 10-27 08:02

    决策树的生成资料

    在本文中,我们将讨论一种监督学习算法。最新一代意法半导体 MEMS 传感器内置一个基于决策树分类器的机器学习核心(MLC)。这些产品很容易通过后缀中的 X 来识别(例如,LSM6DS
    发表于 09-08 06:50

    斯坦福探索深度神经网络可解释性 决策树是关键

    深度学习的热潮还在不断涌动,神经网络再次成为业界人士特别关注的问题,AI 的未来大有可期,而深度学习正在影响我们的日常生活。近日斯坦福大学给
    发表于 01-10 16:06 4391次阅读
    斯坦福探索<b class='flag-5'>深度</b><b class='flag-5'>神经网络</b>可解释性 <b class='flag-5'>决策树</b>是关键

    结合深度神经网络决策树的完美方案

    “ANT的出发点与mGBDT类似,都是期望将神经网络的表示学习决策树的特点做一个结合,不过,ANT依旧依赖神经网络BP算法进行的实现,”冯霁说:“而
    的头像 发表于 07-25 09:39 9713次阅读
    结合<b class='flag-5'>深度</b><b class='flag-5'>神经网络</b>和<b class='flag-5'>决策树</b>的完美方案

    深度神经决策树深度神经网络模型结合的新模型

    近日,来自爱丁堡大学的研究人员提出了一种结合深度神经网络模型的新型模型——深度神经决策树(D
    的头像 发表于 08-19 09:14 1.3w次阅读

    决策树的原理和决策树构建的准备工作,机器学习决策树的原理

    希望通过所给的训练数据学习一个贷款申请的决策树,用于对未来的贷款申请进行分类,即当新的客户提出贷款申请时,根据申请人的特征利用决策树决定是否批准贷款申请。
    的头像 发表于 10-08 14:26 6031次阅读

    决策树的基本概念/学习步骤/算法/优缺点

    本文将介绍决策树的基本概念、决策树学习的3个步骤、3种典型的决策树算法、决策树的10个优缺点。
    发表于 01-27 10:03 2674次阅读
    <b class='flag-5'>决策树</b>的基本概念/<b class='flag-5'>学习</b>步骤/算法/优缺点

    什么是决策树模型,决策树模型的绘制方法

    决策树是一种解决分类问题的算法,本文将介绍什么是决策树模型,常见的用途,以及如何使用“亿图图示”软件绘制决策树模型。
    发表于 02-18 10:12 1.3w次阅读
    什么是<b class='flag-5'>决策树</b>模型,<b class='flag-5'>决策树</b>模型的绘制方法

    大数据—决策树

    认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布决策树通常有三个步骤:特征选择、决策树的生成、决策树的修剪。 用
    的头像 发表于 10-20 10:01 1229次阅读

    卷积神经网络深度神经网络的优缺点 卷积神经网络深度神经网络的区别

    深度神经网络是一种基于神经网络的机器学习算法,其主要特点是由多层神经元构成,可以根据数据自动调整
    发表于 08-21 17:07 4168次阅读