0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GBDT是如何用于分类的

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2020-12-26 10:30 次阅读

❝ 因为用树模型太习以为常了,以至于看到这个标题很容易觉得这很显然。但越简单的东西越容易出现知识盲区,仔细想一下好像确实有点疑问:GBDT 用的是回归树,是如何做的分类呢? - 作者:1直在路上1 -https://www.cnblogs.com/always-fight/p/9400346.html 编辑:阿泽的学习笔记 ❞

一 简介

GBDT 在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一,在前几年深度学习还没有大行其道之前,GBDT 在各种竞赛是大放异彩。原因大概有几个

效果确实挺不错;

既可以用于分类也可以用于回归;

可以筛选特征。

这三点实在是太吸引人了,导致在面试的时候大家也非常喜欢问这个算法。

GBDT 是通过采用加法模型(即基函数的线性组合),以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。

GBDT 通过多轮迭代,每轮迭代产生一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练。对弱分类器的要求一般是足够简单,并且是低方差和高偏差的。因为训练的过程是通过降低偏差来不断提高最终分类器的精度。

二 GBDT如何用于分类的

第一步:「训练的时候,是针对样本 X 每个可能的类都训练一个分类回归树」。如目前的训练集共有三类,即 K = 3,样本 x 属于第二类,那么针对样本x的分类结果,我们可以用一个三维向量 [0,1,0] 来表示,0 表示不属于该类,1 表示属于该类,由于样本已经属于第二类了,所以第二类对应的向量维度为 1,其他位置为 0。

针对样本有三类的情况,我们实质上是在每轮的训练的时候是同时训练三颗树。第一颗树针对样本 x 的第一类,输入是 ,第二颗树针对样本x的第二类,输入是 ,第三颗树针对样本x的第三类,输入是 。

在对样本 x 训练后产生三颗树,对 x 类别的预测值分别是 ,那么在此类训练中,样本 x 属于第一类,第二类,第三类的概率分别是:

然后可以求出针对第一类,第二类,第三类的残差分别是:

然后开始第二轮训练,针对第一类输入为 ,针对第二类输入为 ,针对第三类输入为 ,继续训练出三颗树。一直迭代M轮,每轮构建三棵树当训练完毕以后,新来一个样本 ,我们需要预测该样本的类别的时候,便产生三个值 ,则样本属于某个类别 c 的概率为:

三 GBDT多分类举例说明

下面以 Iris 数据集的六个数据为例来展示 GBDT 多分类的过程

d248a150-4692-11eb-8b86-12bb97331649.png

具体应用到 gbdt 多分类算法。我们用一个三维向量来标志样本的 label,[1,0,0] 表示样本属于山鸢尾,[0,1,0] 表示样本属于杂色鸢尾,[0,0,1] 表示属于维吉尼亚鸢尾。

gbdt 的多分类是针对每个类都独立训练一个 CART Tree。所以这里,我们将针对山鸢尾类别训练一个 CART Tree 1。杂色鸢尾训练一个 CART Tree 2 。维吉尼亚鸢尾训练一个CART Tree 3,这三个树相互独立。

我们以样本 1 为例:

针对 CART Tree1 的训练样本是 [5.1,3.5,1.4,0.2],label 是 1,模型输入为 [5.1, 3.5, 1.4, 0.2, 1]

针对 CART Tree2 的训练样本是 [5.1,3.5,1.4,0.2],label 是 0,模型输入为 [5.1, 3.5, 1.4, 0.2, 0]

针对 CART Tree3 的训练样本是 [5.1,3.5,1.4,0.2],label 是 0,模型输入为[5.1, 3.5, 1.4, 0.2, 0]

下面我们来看 CART Tree1 是如何生成的,其他树 CART Tree2 , CART Tree 3 的生成方式是一样的。CART Tree 的生成过程是从这四个特征中找一个特征做为 CART Tree1 的节点。

比如花萼长度做为节点。6 个样本当中花萼长度大于等于 5.1 cm 的就是 A 类,小于 5.1 cm 的是 B 类。生成的过程其实非常简单,问题

是哪个特征最合适?

是这个特征的什么特征值作为切分点?

即使我们已经确定了花萼长度做为节点。花萼长度本身也有很多值。在这里我们的方式是遍历所有的可能性,找到一个最好的特征和它对应的最优特征值可以让当前式子的值最小:

我们以第一个特征的第一个特征值为例。R1 为所有样本中花萼长度小于 5.1cm 的样本集合,R2 为所有样本中花萼长度大于等于 5.1cm 的样本集合,所以 。

d2763b74-4692-11eb-8b86-12bb97331649.png

为 R1 所有样本label的均值:, 为 R2 所有样本 label 的均值:

下面计算损失函数的值,采用平方误差,分别计算 R1 和 R2 的误差平方和,样本 2 属于 R1 的误差:,样本 1,3,4,5,6 属于 R2 的误差和:

接着我们计算第一个特征的第二个特征值,即 R1 为所有样本中花萼长度小于 4.9 cm 的样本集合,R2 为所有样本当中花萼长度大于等于 4.9 cm 的样本集合,, 为 R1 所有样本 label 的均值:0, 为 R2 所有样本 label 的均值:

d2b2c436-4692-11eb-8b86-12bb97331649.png

计算所有样本的损失值,样本 1 和 2 属于 R2,损失值为:,样本 3,4,5,6 也属于 R2,损失值为:,两组损失值和为 2.222,大于特征一的第一个特征值的损失值,所以我们不取这个特征的特征值。

「继续,这里有四个特征,每个特征有六个特征值,所有需要 6*4=24 个损失值的计算,我们选取值最小的分量的分界点作为最佳划分点,这里我们就不一一计算了,直接给出最小的特征花萼长度,特征值为 5.1 cm。这个时候损失函数最小为 0.8。于是我们的预测函数此时也可以得到:」

「此例子中,训练完以后的最终式子为:」

由这个式子,我们得到对样本属于类别 1 的预测值:,同理我们可以得到对样本属于类别 2,3 的预测值 ,样本属于类别 1 的概率

责任编辑:xj

原文标题:GBDT 如何用于分类问题

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4612

    浏览量

    92870
  • 机器学习
    +关注

    关注

    66

    文章

    8416

    浏览量

    132619
  • GBDT
    +关注

    关注

    0

    文章

    13

    浏览量

    3894

原文标题:GBDT 如何用于分类问题

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    生物芯片有哪些分类

    全球首个生物芯片产品问世虽然已有20多年的时间,但生物芯片分类方式仍没有完全统一的标准。比较常见的分类方式有3种,分别是按用途、作用方式和成分来分类。 (1)用途分类 生物电子芯片:
    的头像 发表于 12-03 15:42 207次阅读

    秒懂连接器分类及应用

    连接器是一种用于连接和传输电子信号或电力信号的设备,广泛应用于各个领域,如电子设备、通信网络、电力系统等。根据其功能和结构特点,连接器可以分为多种类型,并在不同的应用中发挥着不同的作用。下面小欣从
    的头像 发表于 11-12 01:00 814次阅读
    秒懂连接器<b class='flag-5'>分类</b>及应用

    变频电机的主要应用类型有哪些?如何分类

    变频电机是一种通过改变电源频率来调整电机转速的电机。这种电机广泛应用于各种工业和商业领域,以提高能效、减少能源消耗和提高生产效率。变频电机的主要应用类型可以根据其功能、结构和应用领域进行分类。以下
    的头像 发表于 10-24 10:50 216次阅读

    减速电机该如何分类

    减速电机是一种将电能转换为机械能的设备,通过内置的减速机构来降低电机的转速,同时增加扭矩。这种设备广泛应用于各种工业自动化、输送系统、机器人等领域。减速电机可以根据不同的标准进行分类,以下是一些常见
    的头像 发表于 10-24 10:19 329次阅读

    异步电机应用类型与如何分类

    异步电机,也称为感应电机,是一种交流电机,其转子不需要外部电源供电。它广泛应用于各种工业和家庭设备中,因其结构简单、维护方便、成本较低等优点而受到青睐。异步电机可以根据不同的标准进行分类,以下是一些
    的头像 发表于 10-22 09:50 316次阅读

    何用Jacinto内部的GPtimer输出PWM信号控制屏幕背光

    电子发烧友网站提供《如何用Jacinto内部的GPtimer输出PWM信号控制屏幕背光.pdf》资料免费下载
    发表于 09-29 10:25 0次下载
    如<b class='flag-5'>何用</b>Jacinto内部的GPtimer输出PWM信号控制屏幕背光

    何用PMBus解码UCD90xxx故障日志

    电子发烧友网站提供《如何用PMBus解码UCD90xxx故障日志.pdf》资料免费下载
    发表于 09-25 10:04 0次下载
    如<b class='flag-5'>何用</b>PMBus解码UCD90xxx故障日志

    何用 S7-200 实现 Modbus 通信?

    电子发烧友网站提供《如何用 S7-200 实现 Modbus 通信?.pdf》资料免费下载
    发表于 09-14 10:22 1次下载

    深度学习中的时间序列分类方法

    时间序列分类(Time Series Classification, TSC)是机器学习和深度学习领域的重要任务之一,广泛应用于人体活动识别、系统监测、金融预测、医疗诊断等多个领域。随着深度学习技术
    的头像 发表于 07-09 15:54 914次阅读

    调频信号的分类和依据有哪些

    调频信号(FM,Frequency Modulation)是一种无线电信号调制方式,通过改变载波信号的频率来传输信息。调频信号广泛应用于广播、通信、雷达等领域。本文将详细介绍调频信号的分类和依据
    的头像 发表于 06-03 09:40 1841次阅读

    光纤口分类怎么划分

    光纤接口是用来连接光纤线缆的物理接口,根据不同的分类标准,光纤接口可以分为多种类型。以下是一些常见的光纤接口分类: 按接口形状分类: FC接口:Ferrule Connector的缩写,外部加强方式
    的头像 发表于 05-27 10:10 1028次阅读

    贴片电容的分类详细

    贴片电容是一种常见的电子元器件,根据不同的标准可以有多种分类。以下是一些常见的贴片电容分类及详细介绍: 1、按照材料类型分类: 陶瓷贴片电容:采用陶瓷材料制造,具有稳定性好、寿命长、成本低等优点
    的头像 发表于 04-02 14:55 1545次阅读

    光模块分类说明及区别

    本文对光模块的分类进行说明,包括按照传输速率、封装类型、波长、模式、传输距离、拉环颜色、使用温度和品牌等分类方式。不同类型光模块适用于不同的需求场景。
    的头像 发表于 03-06 10:52 2565次阅读

    FPGA分类

    :适用于各种不同的应用,如通信、工业控制、视频处理等。 专用FPGA :针对特定的应用领域进行优化,如高速接口、网络处理、AI加速等。 上述分类并非互斥,某些FPGA可能同时属于多个类别。
    发表于 01-26 10:09

    宏集方案 | 如何用工业树莓派和MQTT平台打通OT和IT?

    何用工业树莓派和MQTT平台打通OT和IT?
    的头像 发表于 01-05 11:01 379次阅读
    宏集方案 | 如<b class='flag-5'>何用</b>工业树莓派和MQTT平台打通OT和IT?