0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

详谈机器学习的决策树模型

如意 来源:逍遥埠 作者:逍遥埠 2020-07-06 09:49 次阅读

决策树模型是白盒模型的一种,其预测结果可以由人来解释。我们把机器学习模型的这一特性称为可解释性,但并不是所有的机器学习模型都具有可解释性。

作为可解释性属性的一部分,特征重要性是一个衡量每个输入特征对模型预测结果贡献的指标,即某个特征上的微小变化如何改变预测结果。

直觉

不同于基尼不纯度或熵,没有一个通用的数学公式来定义特征的重要性,而特征的重要性在不同的模型中是不同的。

例如,对于线性回归模型,假设所有输入特征具有相同的尺度(如[0,1],那么每个特征的特征重要性就是与该特征相关的权值的绝对值。从这个公式可以看出线性回归模型的f (X) =∑i = 1 n (wixi),模型的结果是线性正比于每个组件(wixi)这是由重量决定的(wi)的组件。

对于决策树,为了度量特征的重要性,我们需要研究模型,看看每个特征是如何在模型的最终“决策”中发挥作用的。从前面的文章中我们了解到,在决策树模型中,在每个决策节点上,我们选择最佳的特征进行分割,以便进一步区分到达该决策节点的样本。在每一次分割中,我们都更接近最终的决定(即叶节点)。因此,我们可以说,在每个决策节点上,所选择的分割特征决定了最终的预测结果。直观地说,我们也可以说,那些被选择的特征比那些实际上在决策过程中没有作用的非被选择的特征更重要。现在,剩下的问题是我们如何量化地衡量这种重要性。

有人可能还记得,我们使用信息增益或基尼系数来衡量分割的质量。当然,还可以将增益与所选择的特性关联起来,并使用增益来量化该特性在这个特定的分裂发生时的贡献。此外,我们可以累积决策树中出现的每个特征的增益。

最后,每个特征的累积增益可以作为决策树模型的特征重要性。

另一方面,作为一个可能会注意到,这一决定节点不是同样重要的是,自从决定节点树的根可以帮助过滤所有的输入样本,而决定节点树的底部有助于区分总样本的只有少数。因此,一个特征在每个决策节点获得的增益的权重并不相同,即一个特征在一个决策节点获得的增益应按该决策节点帮助区分的样本比例进行加权。

基于上述直觉,我们可以推导出以下公式来计算决策树中每个特征的重要性I:

详谈机器学习的决策树模型

注:我们可以用上述公式中的信息增益来代替基尼系数增益度量,只要我们对所有特征都使用相同的度量。

通过上面的公式,我们可以得到一个值来衡量决策树中每个特征的重要性。有时,可能需要对值进行规范化,以便更直观地比较这些值,即将所有值缩放到(0,1)的范围内。例如,如果有两个特征经过归一化后得分相同(即0.5),我们可以说它们在决策树中同等重要。

举个例子

让我们看一个具体的例子,看看我们如何应用上面的公式来计算决策树中的特征重要性。首先,我们在下图中展示了一个实例决策树。

详谈机器学习的决策树模型

从图中可以看出,该树中共有3个决策节点。在每个决策节点中,我们指出了三条信息:

1、选择要分割的特性。

2、特征获得的基尼系数

3、分别分配给左子节点和右子节点的样本数量。

此外,我们可以看出决策树总共训练了100个样本。

因此,我们可以计算出树中涉及的两个特征的特征重要性如下:

详谈机器学习的决策树模型

进一步,我们可以得到归一化特征重要性如下:

详谈机器学习的决策树模型

后记:路漫漫其修远兮,吾将上下而求索!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8453

    浏览量

    133165
  • 决策树
    +关注

    关注

    3

    文章

    96

    浏览量

    13601
  • 白盒测试
    +关注

    关注

    1

    文章

    14

    浏览量

    10651
收藏 人收藏

    评论

    相关推荐

    机器学习模型市场前景如何

    当今,随着算法的不断优化、数据量的爆炸式增长以及计算能力的飞速提升,机器学习模型的市场前景愈发广阔。下面,AI部落小编将探讨机器学习
    的头像 发表于 02-13 09:39 53次阅读

    Kaggle知识点:7种超参数搜索方法

    问题。一些常见的超参数例子包括梯度基算法中的学习率,或者决策树算法中的深度,这些可以直接影响模型准确拟合训练数据的能力。超参数调优涉及在复杂的、高维的超参数空间中
    的头像 发表于 02-08 14:28 331次阅读
    Kaggle知识点:7种超参数搜索方法

    科技在物联网方面

    。 人工智能算法优化:宇科技不断优化其机器人的人工智能算法,使其能够在物联网环境中更好地进行智能决策。通过机器学习、深度
    发表于 02-04 06:48

    xgboost超参数调优技巧 xgboost在图像分类中的应用

    一、XGBoost超参数调优技巧 XGBoost(eXtreme Gradient Boosting)是一种基于梯度提升决策树(GBDT)的高效梯度提升框架,在机器学习竞赛和实际业务应用中取得了卓越
    的头像 发表于 01-31 15:16 133次阅读

    xgboost的并行计算原理

    之一。 XGBoost简介 XGBoost是一种基于梯度提升框架的集成学习算法,它通过构建多个决策树来提高模型的预测性能。与传统的梯度提升相比,XGBoost在算法上进行了优化,包括
    的头像 发表于 01-19 11:17 433次阅读

    xgboost在图像分类中的应用

    XGBoost(eXtreme Gradient Boosting)是一种高效的机器学习算法,它基于梯度提升框架,通过构建多个弱学习器(通常是决策树)来提高
    的头像 发表于 01-19 11:16 396次阅读

    什么是机器学习?通过机器学习方法能解决哪些问题?

    来源:Master编程机器学习”最初的研究动机是让计算机系统具有人的学习能力以便实现人工智能。因为没有学习能力的系统很难被认为是具有智能
    的头像 发表于 11-16 01:07 544次阅读
    什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>?通过<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法能解决哪些问题?

    AI大模型与深度学习的关系

    AI大模型与深度学习之间存在着密不可分的关系,它们互为促进,相辅相成。以下是对两者关系的介绍: 一、深度学习是AI大模型的基础 技术支撑 :深度学习
    的头像 发表于 10-23 15:25 1472次阅读

    AI大模型与传统机器学习的区别

    AI大模型与传统机器学习在多个方面存在显著的区别。以下是对这些区别的介绍: 一、模型规模与复杂度 AI大模型 :通常包含数十亿甚至数万亿的参
    的头像 发表于 10-23 15:01 1256次阅读

    Al大模型机器

    丰富的知识储备。它们可以涵盖各种领域的知识,并能够回答相关问题。灵活性与通用性: AI大模型机器人具有很强的灵活性和通用性,能够处理各种类型的任务和问题。持续学习和改进: 这些模型可以
    发表于 07-05 08:52

    人工神经网络与传统机器学习模型的区别

    人工神经网络(ANN)与传统机器学习模型之间的不同,包括其原理、数据处理能力、学习方法、适用场景及未来发展趋势等方面,以期为读者提供一个全面的视角。
    的头像 发表于 07-04 14:08 1632次阅读

    机器学习算法原理详解

    机器学习作为人工智能的一个重要分支,其目标是通过让计算机自动从数据中学习并改进其性能,而无需进行明确的编程。本文将深入解读几种常见的机器学习
    的头像 发表于 07-02 11:25 1435次阅读

    名单公布!【书籍评测活动NO.35】如何用「时间序列与机器学习」解锁未来?

    设备的运行状况,生成各种维度的报告。 同时,通过大数据分析和机器学习技术,可以对业务进行预测和预警,从而协助社会和企业进行科学决策、降低成本并创造新的价值。 当今时代,数据无处不在,而时间序列数据更是
    发表于 06-25 15:00

    机器学习怎么进入人工智能

    ,人工智能已成为一个热门领域,涉及到多个行业和领域,例如语音识别、机器翻译、图像识别等。 在编程中进行人工智能的关键是使用机器学习算法,这是一类基于样本数据和模型训练来进行预测和判断的
    的头像 发表于 04-04 08:41 412次阅读

    什么是随机森林?随机森林的工作原理

    随机森林使用名为“bagging”的技术,通过数据集和特征的随机自助抽样样本并行构建完整的决策树。虽然决策树基于一组固定的特征,而且经常过拟合,但随机性对森林的成功至关重要。
    发表于 03-18 14:27 3792次阅读
    什么是随机森林?随机森林的工作原理