GBDT是如何用于分类的-电子发烧友网

❝ 因为用树模型太习以为常了，以至于看到这个标题很容易觉得这很显然。但越简单的东西越容易出现知识盲区，仔细想一下好像确实有点疑问：GBDT 用的是回归树，是如何做的分类呢？ - 作者：1直在路上1 -https://www.cnblogs.com/always-fight/p/9400346.html 编辑：阿泽的学习笔记 ❞

一简介

GBDT 在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一，在前几年深度学习还没有大行其道之前，GBDT 在各种竞赛是大放异彩。原因大概有几个

效果确实挺不错；

既可以用于分类也可以用于回归；

可以筛选特征。

这三点实在是太吸引人了，导致在面试的时候大家也非常喜欢问这个算法。

GBDT 是通过采用加法模型（即基函数的线性组合），以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。

GBDT 通过多轮迭代，每轮迭代产生一个弱分类器，每个分类器在上一轮分类器的残差基础上进行训练。对弱分类器的要求一般是足够简单，并且是低方差和高偏差的。因为训练的过程是通过降低偏差来不断提高最终分类器的精度。

二 GBDT如何用于分类的

第一步：「训练的时候，是针对样本 X 每个可能的类都训练一个分类回归树」。如目前的训练集共有三类，即 K = 3，样本 x 属于第二类，那么针对样本x的分类结果，我们可以用一个三维向量 [0,1,0] 来表示，0 表示不属于该类，1 表示属于该类，由于样本已经属于第二类了，所以第二类对应的向量维度为 1，其他位置为 0。

针对样本有三类的情况，我们实质上是在每轮的训练的时候是同时训练三颗树。第一颗树针对样本 x 的第一类，输入是，第二颗树针对样本x的第二类，输入是，第三颗树针对样本x的第三类，输入是。

在对样本 x 训练后产生三颗树，对 x 类别的预测值分别是，那么在此类训练中，样本 x 属于第一类，第二类，第三类的概率分别是：

然后可以求出针对第一类，第二类，第三类的残差分别是：

然后开始第二轮训练，针对第一类输入为，针对第二类输入为，针对第三类输入为，继续训练出三颗树。一直迭代M轮，每轮构建三棵树当训练完毕以后，新来一个样本，我们需要预测该样本的类别的时候，便产生三个值，则样本属于某个类别 c 的概率为：

三 GBDT多分类举例说明

下面以 Iris 数据集的六个数据为例来展示 GBDT 多分类的过程

具体应用到 gbdt 多分类算法。我们用一个三维向量来标志样本的 label，[1,0,0] 表示样本属于山鸢尾，[0,1,0] 表示样本属于杂色鸢尾，[0,0,1] 表示属于维吉尼亚鸢尾。

gbdt 的多分类是针对每个类都独立训练一个 CART Tree。所以这里，我们将针对山鸢尾类别训练一个 CART Tree 1。杂色鸢尾训练一个 CART Tree 2 。维吉尼亚鸢尾训练一个CART Tree 3，这三个树相互独立。

我们以样本 1 为例：

针对 CART Tree1 的训练样本是 [5.1,3.5,1.4,0.2]，label 是 1，模型输入为 [5.1, 3.5, 1.4, 0.2, 1]

针对 CART Tree2 的训练样本是 [5.1,3.5,1.4,0.2]，label 是 0，模型输入为 [5.1, 3.5, 1.4, 0.2, 0]

针对 CART Tree3 的训练样本是 [5.1,3.5,1.4,0.2]，label 是 0，模型输入为[5.1, 3.5, 1.4, 0.2, 0]

下面我们来看 CART Tree1 是如何生成的，其他树 CART Tree2 , CART Tree 3 的生成方式是一样的。CART Tree 的生成过程是从这四个特征中找一个特征做为 CART Tree1 的节点。

比如花萼长度做为节点。6 个样本当中花萼长度大于等于 5.1 cm 的就是 A 类，小于 5.1 cm 的是 B 类。生成的过程其实非常简单，问题

是哪个特征最合适？

是这个特征的什么特征值作为切分点？

即使我们已经确定了花萼长度做为节点。花萼长度本身也有很多值。在这里我们的方式是遍历所有的可能性，找到一个最好的特征和它对应的最优特征值可以让当前式子的值最小：

我们以第一个特征的第一个特征值为例。R1 为所有样本中花萼长度小于 5.1cm 的样本集合，R2 为所有样本中花萼长度大于等于 5.1cm 的样本集合，所以。

为 R1 所有样本label的均值：，为 R2 所有样本 label 的均值：

下面计算损失函数的值，采用平方误差，分别计算 R1 和 R2 的误差平方和，样本 2 属于 R1 的误差：，样本 1，3，4，5，6 属于 R2 的误差和：

接着我们计算第一个特征的第二个特征值，即 R1 为所有样本中花萼长度小于 4.9 cm 的样本集合，R2 为所有样本当中花萼长度大于等于 4.9 cm 的样本集合，，为 R1 所有样本 label 的均值：0，为 R2 所有样本 label 的均值：

计算所有样本的损失值，样本 1 和 2 属于 R2，损失值为：，样本 3，4，5，6 也属于 R2，损失值为：，两组损失值和为 2.222，大于特征一的第一个特征值的损失值，所以我们不取这个特征的特征值。

「继续，这里有四个特征，每个特征有六个特征值，所有需要 6*4=24 个损失值的计算，我们选取值最小的分量的分界点作为最佳划分点，这里我们就不一一计算了，直接给出最小的特征花萼长度，特征值为 5.1 cm。这个时候损失函数最小为 0.8。于是我们的预测函数此时也可以得到:」

「此例子中，训练完以后的最终式子为：」

由这个式子，我们得到对样本属于类别 1 的预测值：，同理我们可以得到对样本属于类别 2，3 的预测值，样本属于类别 1 的概率

责任编辑：xj

原文标题：GBDT 如何用于分类问题

文章出处：【微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

算法

算法

+关注

关注
23

文章
4645

浏览量
93688
机器学习

机器学习

+关注

关注
66

文章
8460

浏览量
133398
GBDT

GBDT

+关注

关注
0

文章
13

浏览量
3942

原文标题：GBDT 如何用于分类问题

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

AN-737: 如何用ADIsimADC完成ADC建模

电子发烧友网站提供《AN-737: 如何用ADIsimADC完成ADC建模.pdf》资料免费下载

发表于 01-13 14:54 •0次下载

AN-737: 如<b class='flag-5'>何用</b>ADIsimADC完成ADC建模

断路器的分类及应用领域

断路器的分类断路器可以根据不同的标准进行分类，以下是几种常见的分类方式：按极数分类：单极断路器：用于单相电路。双极断路器：

发表于 01-03 09:33 •515次阅读

生物芯片有哪些分类

全球首个生物芯片产品问世虽然已有20多年的时间，但生物芯片分类方式仍没有完全统一的标准。比较常见的分类方式有3种，分别是按用途、作用方式和成分来分类。（1）用途分类生物电子芯片：

发表于 12-03 15:42 •469次阅读

秒懂连接器分类及应用

连接器是一种用于连接和传输电子信号或电力信号的设备，广泛应用于各个领域，如电子设备、通信网络、电力系统等。根据其功能和结构特点，连接器可以分为多种类型，并在不同的应用中发挥着不同的作用。下面小欣从

发表于 11-12 01:00 •2087次阅读

变频电机的主要应用类型有哪些？如何分类？

变频电机是一种通过改变电源频率来调整电机转速的电机。这种电机广泛应用于各种工业和商业领域，以提高能效、减少能源消耗和提高生产效率。变频电机的主要应用类型可以根据其功能、结构和应用领域进行分类。以下

发表于 10-24 10:50 •461次阅读

减速电机该如何分类？

减速电机是一种将电能转换为机械能的设备，通过内置的减速机构来降低电机的转速，同时增加扭矩。这种设备广泛应用于各种工业自动化、输送系统、机器人等领域。减速电机可以根据不同的标准进行分类，以下是一些常见

发表于 10-24 10:19 •628次阅读

异步电机应用类型与如何分类？

异步电机，也称为感应电机，是一种交流电机，其转子不需要外部电源供电。它广泛应用于各种工业和家庭设备中，因其结构简单、维护方便、成本较低等优点而受到青睐。异步电机可以根据不同的标准进行分类，以下是一些

发表于 10-22 09:50 •592次阅读

如何用Jacinto内部的GPtimer输出PWM信号控制屏幕背光

电子发烧友网站提供《如何用Jacinto内部的GPtimer输出PWM信号控制屏幕背光.pdf》资料免费下载

发表于 09-29 10:25 •0次下载

如<b class='flag-5'>何用</b>Jacinto内部的GPtimer输出PWM信号控制屏幕背光

如何用PMBus解码UCD90xxx故障日志

电子发烧友网站提供《如何用PMBus解码UCD90xxx故障日志.pdf》资料免费下载

发表于 09-25 10:04 •0次下载

如<b class='flag-5'>何用</b>PMBus解码UCD90xxx故障日志

如何用 S7-200 实现 Modbus 通信?

电子发烧友网站提供《如何用 S7-200 实现 Modbus 通信?.pdf》资料免费下载

发表于 09-14 10:22 •1次下载

计算机存储器的分类及其区别

计算机存储器是计算机系统中不可或缺的重要部分，用于存放程序和数据。随着科技的进步，存储器的种类越来越多，功能和性能也日益丰富。一般来说，计算机存储器可以按照不同的分类标准进行分类，以下是详细的

发表于 09-05 10:40 •2763次阅读

深度学习中的时间序列分类方法

时间序列分类（Time Series Classification, TSC）是机器学习和深度学习领域的重要任务之一，广泛应用于人体活动识别、系统监测、金融预测、医疗诊断等多个领域。随着深度学习技术

发表于 07-09 15:54 •1353次阅读

调频信号的分类和依据有哪些

调频信号（FM，Frequency Modulation）是一种无线电信号调制方式，通过改变载波信号的频率来传输信息。调频信号广泛应用于广播、通信、雷达等领域。本文将详细介绍调频信号的分类和依据

发表于 06-03 09:40 •2540次阅读

光纤口分类怎么划分

光纤接口是用来连接光纤线缆的物理接口，根据不同的分类标准，光纤接口可以分为多种类型。以下是一些常见的光纤接口分类：按接口形状分类： FC接口：Ferrule Connector的缩写，外部加强方式

发表于 05-27 10:10 •1357次阅读

贴片电容的分类详细

贴片电容是一种常见的电子元器件，根据不同的标准可以有多种分类。以下是一些常见的贴片电容分类及详细介绍： 1、按照材料类型分类：陶瓷贴片电容：采用陶瓷材料制造，具有稳定性好、寿命长、成本低等优点

发表于 04-02 14:55 •1859次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

GBDT是如何用于分类的

评论