0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GBDT是如何用于分类的

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2020-12-26 10:30 次阅读

❝ 因为用树模型太习以为常了,以至于看到这个标题很容易觉得这很显然。但越简单的东西越容易出现知识盲区,仔细想一下好像确实有点疑问:GBDT 用的是回归树,是如何做的分类呢? - 作者:1直在路上1 -https://www.cnblogs.com/always-fight/p/9400346.html 编辑:阿泽的学习笔记 ❞

一 简介

GBDT 在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一,在前几年深度学习还没有大行其道之前,GBDT 在各种竞赛是大放异彩。原因大概有几个

效果确实挺不错;

既可以用于分类也可以用于回归;

可以筛选特征。

这三点实在是太吸引人了,导致在面试的时候大家也非常喜欢问这个算法。

GBDT 是通过采用加法模型(即基函数的线性组合),以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。

GBDT 通过多轮迭代,每轮迭代产生一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练。对弱分类器的要求一般是足够简单,并且是低方差和高偏差的。因为训练的过程是通过降低偏差来不断提高最终分类器的精度。

二 GBDT如何用于分类的

第一步:「训练的时候,是针对样本 X 每个可能的类都训练一个分类回归树」。如目前的训练集共有三类,即 K = 3,样本 x 属于第二类,那么针对样本x的分类结果,我们可以用一个三维向量 [0,1,0] 来表示,0 表示不属于该类,1 表示属于该类,由于样本已经属于第二类了,所以第二类对应的向量维度为 1,其他位置为 0。

针对样本有三类的情况,我们实质上是在每轮的训练的时候是同时训练三颗树。第一颗树针对样本 x 的第一类,输入是 ,第二颗树针对样本x的第二类,输入是 ,第三颗树针对样本x的第三类,输入是 。

在对样本 x 训练后产生三颗树,对 x 类别的预测值分别是 ,那么在此类训练中,样本 x 属于第一类,第二类,第三类的概率分别是:

然后可以求出针对第一类,第二类,第三类的残差分别是:

然后开始第二轮训练,针对第一类输入为 ,针对第二类输入为 ,针对第三类输入为 ,继续训练出三颗树。一直迭代M轮,每轮构建三棵树当训练完毕以后,新来一个样本 ,我们需要预测该样本的类别的时候,便产生三个值 ,则样本属于某个类别 c 的概率为:

三 GBDT多分类举例说明

下面以 Iris 数据集的六个数据为例来展示 GBDT 多分类的过程

d248a150-4692-11eb-8b86-12bb97331649.png

具体应用到 gbdt 多分类算法。我们用一个三维向量来标志样本的 label,[1,0,0] 表示样本属于山鸢尾,[0,1,0] 表示样本属于杂色鸢尾,[0,0,1] 表示属于维吉尼亚鸢尾。

gbdt 的多分类是针对每个类都独立训练一个 CART Tree。所以这里,我们将针对山鸢尾类别训练一个 CART Tree 1。杂色鸢尾训练一个 CART Tree 2 。维吉尼亚鸢尾训练一个CART Tree 3,这三个树相互独立。

我们以样本 1 为例:

针对 CART Tree1 的训练样本是 [5.1,3.5,1.4,0.2],label 是 1,模型输入为 [5.1, 3.5, 1.4, 0.2, 1]

针对 CART Tree2 的训练样本是 [5.1,3.5,1.4,0.2],label 是 0,模型输入为 [5.1, 3.5, 1.4, 0.2, 0]

针对 CART Tree3 的训练样本是 [5.1,3.5,1.4,0.2],label 是 0,模型输入为[5.1, 3.5, 1.4, 0.2, 0]

下面我们来看 CART Tree1 是如何生成的,其他树 CART Tree2 , CART Tree 3 的生成方式是一样的。CART Tree 的生成过程是从这四个特征中找一个特征做为 CART Tree1 的节点。

比如花萼长度做为节点。6 个样本当中花萼长度大于等于 5.1 cm 的就是 A 类,小于 5.1 cm 的是 B 类。生成的过程其实非常简单,问题

是哪个特征最合适?

是这个特征的什么特征值作为切分点?

即使我们已经确定了花萼长度做为节点。花萼长度本身也有很多值。在这里我们的方式是遍历所有的可能性,找到一个最好的特征和它对应的最优特征值可以让当前式子的值最小:

我们以第一个特征的第一个特征值为例。R1 为所有样本中花萼长度小于 5.1cm 的样本集合,R2 为所有样本中花萼长度大于等于 5.1cm 的样本集合,所以 。

d2763b74-4692-11eb-8b86-12bb97331649.png

为 R1 所有样本label的均值:, 为 R2 所有样本 label 的均值:

下面计算损失函数的值,采用平方误差,分别计算 R1 和 R2 的误差平方和,样本 2 属于 R1 的误差:,样本 1,3,4,5,6 属于 R2 的误差和:

接着我们计算第一个特征的第二个特征值,即 R1 为所有样本中花萼长度小于 4.9 cm 的样本集合,R2 为所有样本当中花萼长度大于等于 4.9 cm 的样本集合,, 为 R1 所有样本 label 的均值:0, 为 R2 所有样本 label 的均值:

d2b2c436-4692-11eb-8b86-12bb97331649.png

计算所有样本的损失值,样本 1 和 2 属于 R2,损失值为:,样本 3,4,5,6 也属于 R2,损失值为:,两组损失值和为 2.222,大于特征一的第一个特征值的损失值,所以我们不取这个特征的特征值。

「继续,这里有四个特征,每个特征有六个特征值,所有需要 6*4=24 个损失值的计算,我们选取值最小的分量的分界点作为最佳划分点,这里我们就不一一计算了,直接给出最小的特征花萼长度,特征值为 5.1 cm。这个时候损失函数最小为 0.8。于是我们的预测函数此时也可以得到:」

「此例子中,训练完以后的最终式子为:」

由这个式子,我们得到对样本属于类别 1 的预测值:,同理我们可以得到对样本属于类别 2,3 的预测值 ,样本属于类别 1 的概率

责任编辑:xj

原文标题:GBDT 如何用于分类问题

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4599

    浏览量

    92641
  • 机器学习
    +关注

    关注

    66

    文章

    8377

    浏览量

    132406
  • GBDT
    +关注

    关注

    0

    文章

    13

    浏览量

    3884

原文标题:GBDT 如何用于分类问题

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    异步电机应用类型与如何分类

    异步电机,也称为感应电机,是一种交流电机,其转子不需要外部电源供电。它广泛应用于各种工业和家庭设备中,因其结构简单、维护方便、成本较低等优点而受到青睐。异步电机可以根据不同的标准进行分类,以下是一些
    的头像 发表于 10-22 09:50 200次阅读

    何用Jacinto内部的GPtimer输出PWM信号控制屏幕背光

    电子发烧友网站提供《如何用Jacinto内部的GPtimer输出PWM信号控制屏幕背光.pdf》资料免费下载
    发表于 09-29 10:25 0次下载
    如<b class='flag-5'>何用</b>Jacinto内部的GPtimer输出PWM信号控制屏幕背光

    何用PMBus解码UCD90xxx故障日志

    电子发烧友网站提供《如何用PMBus解码UCD90xxx故障日志.pdf》资料免费下载
    发表于 09-25 10:04 0次下载
    如<b class='flag-5'>何用</b>PMBus解码UCD90xxx故障日志

    何用 S7-200 实现 Modbus 通信?

    电子发烧友网站提供《如何用 S7-200 实现 Modbus 通信?.pdf》资料免费下载
    发表于 09-14 10:22 1次下载

    光纤口分类怎么划分

    光纤接口是用来连接光纤线缆的物理接口,根据不同的分类标准,光纤接口可以分为多种类型。以下是一些常见的光纤接口分类: 按接口形状分类: FC接口:Ferrule Connector的缩写,外部加强方式
    的头像 发表于 05-27 10:10 917次阅读

    贴片电容的分类详细

    贴片电容是一种常见的电子元器件,根据不同的标准可以有多种分类。以下是一些常见的贴片电容分类及详细介绍: 1、按照材料类型分类: 陶瓷贴片电容:采用陶瓷材料制造,具有稳定性好、寿命长、成本低等优点
    的头像 发表于 04-02 14:55 1395次阅读

    光模块分类说明及区别

    本文对光模块的分类进行说明,包括按照传输速率、封装类型、波长、模式、传输距离、拉环颜色、使用温度和品牌等分类方式。不同类型光模块适用于不同的需求场景。
    的头像 发表于 03-06 10:52 2451次阅读

    FPGA分类

    :适用于各种不同的应用,如通信、工业控制、视频处理等。 专用FPGA :针对特定的应用领域进行优化,如高速接口、网络处理、AI加速等。 上述分类并非互斥,某些FPGA可能同时属于多个类别。
    发表于 01-26 10:09

    宏集方案 | 如何用工业树莓派和MQTT平台打通OT和IT?

    何用工业树莓派和MQTT平台打通OT和IT?
    的头像 发表于 01-05 11:01 354次阅读
    宏集方案 | 如<b class='flag-5'>何用</b>工业树莓派和MQTT平台打通OT和IT?

    常用接近开关的原理和分类

    常用接近开关的原理和分类 一、引言 接近开关是一种常用的工业自动化设备,用于检测物体的接近或近距离,并通过开关信号进行控制。接近开关的原理和分类是学习电气自动化的基础知识之一。本文将从原理、
    的头像 发表于 12-26 14:02 1769次阅读

    温控开关的详细分类

    温控开关可以根据不同的分类标准进行分类,以下是几种常见的分类方式
    的头像 发表于 12-13 14:46 1749次阅读

    何用BUCK电路简单实现一个可靠的负电源?

    何用BUCK电路简单实现一个可靠的负电源?
    的头像 发表于 12-05 15:12 763次阅读
    如<b class='flag-5'>何用</b>BUCK电路简单实现一个可靠的负电源?

    GNSS天线的分类 影响GNSS天线的因素

    。以下是几种常见的GNSS天线分类: 1. 单频和多频天线:根据GNSS卫星系统所使用的频率,天线可以分为单频和多频天线。单频天线适用于单频GNSS系统(如GPS),只能接收到一个特定频率的信号。而多频天线可以同时接收多个频率的信号,适
    的头像 发表于 11-28 15:39 1930次阅读

    何用ADIsimADC完成ADC建模

    电子发烧友网站提供《如何用ADIsimADC完成ADC建模.pdf》资料免费下载
    发表于 11-28 10:36 2次下载
    如<b class='flag-5'>何用</b>ADIsimADC完成ADC建模

    何用不同的方法在信号中添加或累积误差

    电子发烧友网站提供《如何用不同的方法在信号中添加或累积误差.pdf》资料免费下载
    发表于 11-27 11:54 0次下载
    如<b class='flag-5'>何用</b>不同的方法在信号中添加或累积误差