0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据—决策树

恬静简朴1 来源:恬静简朴1 作者:恬静简朴1 2022-10-20 10:01 次阅读

大数据————决策树(decision tree)

决策树(decision tree):是一种基本的分类与回归方法,主要讨论分类的决策树。

在分类问题中,表示基于特征对实例进行分类的过程,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。

决策树通常有三个步骤:特征选择、决策树的生成、决策树的修剪。

用决策树分类:从根节点开始,对实例的某一特征进行测试,根据测试结果将实例分配到其子节点,此时每个子节点对应着该特征的一个取值,如此递归的对实例进行测试并分配,直到到达叶节点,最后将实例分到叶节点的类中。

决策树学习的目标:根据给定的训练数据集构建一个决策树模型,使它能够对实例进行正确的分类。

决策树学习的本质:从训练集中归纳出一组分类规则,或者说是由训练数据集估计条件概率模型。

决策树学习的损失函数:正则化的极大似然函数

决策树学习的测试:最小化损失函数

决策树学习的目标:在损失函数的意义下,选择最优决策树的问题。

数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。一个决策树包含三种类型的节点:

决策节点:通常用矩形框来表示

机会节点:通常用圆圈来表示

终结点:通常用三角形来表示

剪枝是决策树停止分支的方法之一,剪枝有分预先剪枝和后剪枝两种。预先剪枝是在树的生长过程中设定一个指标,当达到该指标时就停止生长,这样做容易产生“视界局限”,就是一旦停止分支,使得节点N成为叶节点,就断绝了其后继节点进行“好”的分支操作的任何可能性。不严格的说这些已停止的分支会误导学习算法,导致产生的树不纯度降差最大的地方过分靠近根节点。后剪枝中树首先要充分生长,直到叶节点都有最小的不纯度值为止,因而可以克服“视界局限”。然后对所有相邻的成对叶节点考虑是否消去它们,如果消去能引起令人满意的不纯度增长,那么执行消去,并令它们的公共父节点成为新的叶节点。这种“合并”叶节点的做法和节点分支的过程恰好相反,经过剪枝后叶节点常常会分布在很宽的层次上,树也变得非平衡。后剪枝技术的优点是克服了“视界局限”效应,而且无需保留部分样本用于交叉验证,所以可以充分利用全部训练集的信息。但后剪枝的计算量代价比预剪枝方法大得多,特别是在大样本集中,不过对于小样本的情况,后剪枝方法还是优于预剪枝方法的。

大数据知识点:

一、大数据概述:1.大数据及特点分析;2.大数据关健技术;3.大数据计算模式;4.大数据应用实例

二、大数据处理架构Hadoop:1.Hadoop项目结构;2.Hadoop安装与使用;3.Hadoop集群的部署与使用;4.Hadoop 代表性组件

三、分布式文件系统HDFS :1.HDFS体系结构;2.HDFS存储;3.HDFS数据读写过程

四、分布式数据库HBase :1.HBase访问接口;2.HBase数据类型;3.HBase实现原理;4.HBase运行机制;5.HBase应用

五、MapReduce :1.MapReduce体系结构;2.MapReduce工作流程;3.资源管理调度框架YARN ;4.MapReduce应用

六、Spark :1.Spark生态与运行架构;2.Spark SQL;3.Spark部署与应用方式

七、IPython Notebook运行Python Spark程序:1.Anaconda;2.IPython Notebook使用Spark;3.使用IPython Notebook在Hadoop YARN模式运行

八、Python Spark集成开发环境 :1.Python Spark集成开发环境部署配置;2.Spark数据分析库MLlib的开发部署

九、Python Spark决策树二分类与多分类 :1.决策树原理;2.大数据问题;3.决策树二分类;4.决策树多分类

十、Python Spark支持向量机 :1.支持向量机SVM 原理与算法;2.Python Spark SVM程序设计

十一、Python Spark 贝叶斯模型 :1.朴素贝叶斯模型原理;2.Python Spark贝叶斯模型程序设计

十二、Python Spark逻辑回归 :1.逻辑回归原理;2.Python Spark逻辑回归程序设计

十三、Python Spark回归分析 :1.大数据分析;2.数据集介绍;3.Python Spark回归程序设计

十四、Spark ML Pipeline 机器学习流程分类 :1.机器学习流程组件:StringIndexer、OneHotEncoder、VectorAssembler等

2.使用Spark ML Pipeline 机器学习流程分类程序设计

十五、Python Spark 创建推荐引擎 :1.推荐算法;2.推荐引擎大数据分析使用场景;3.推荐引擎设计

十六、项目实践:1.日志分析系统与日志挖掘项目实践;2.推荐系统项目实践

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 决策树
    +关注

    关注

    2

    文章

    96

    浏览量

    13531
  • 大数据
    +关注

    关注

    64

    文章

    8849

    浏览量

    137164
收藏 人收藏

    评论

    相关推荐

    智慧城市与大数据的关系

    的建设需要对海量的数据资源进行收集、整合、存储与分析。大数据技术的应用,如智能感知、分布式存储等,使得这些数据能够被高效地处理和利用。 决策支持 : 在智慧城市的建设和运行过程中,
    的头像 发表于 10-24 15:27 382次阅读

    大数据在军事方面的应用

    智慧华盛恒辉大数据在军事方面的应用广泛且深入,涵盖了战争决策、情报分析、装备研发、后勤保障、科研方法、管理水平、作战能力和信息化建设等多个方面。以下是对这些应用的详细归纳: 智慧华盛恒辉一、战争决策
    的头像 发表于 07-16 09:44 750次阅读

    大数据在军事方面的应用有哪些

    智慧华盛恒辉大数据在军事方面的应用涵盖了多个方面,这些应用不仅提高了军事管理的效率和水平,也极大地提升了军队的作战能力和情报获取能力。以下是大数据在军事方面的主要应用: 智慧华盛恒辉战争决策辅助
    的头像 发表于 06-23 10:34 779次阅读

    大数据在部队管理中的运用有哪些

    智慧华盛恒辉大数据在部队管理中的运用主要体现在以下几个方面: 决策支持: 智慧华盛恒辉部队管理可以利用大数据技术,对海量的数据进行分析,为决策
    的头像 发表于 06-23 09:53 891次阅读

    什么是随机森林?随机森林的工作原理

    随机森林使用名为“bagging”的技术,通过数据集和特征的随机自助抽样样本并行构建完整的决策树。虽然决策树基于一组固定的特征,而且经常过拟合,但随机性对森林的成功至关重要。
    发表于 03-18 14:27 3125次阅读
    什么是随机森林?随机森林的工作原理

    CYBT-343026传输大数据时会丢数据的原因?

    我正在使用 CYBT-343026 (CYW-20706 Silicon) 模块。 我根据 SPP 样本制作了一个操作 SPP 的应用程序。 但是,传输大数据时有时会丢失数据。 它从
    发表于 03-01 15:04

    科达嘉电感器在大数据与人工智能领域被广泛应用

    近年来,大数据与人工智能成为科技领域的热门话题。大数据为人工智能提供了大量的数据作为输入,使得人工智能算法和模型能够通过学习做出更准确的预测和决策
    的头像 发表于 02-29 13:56 436次阅读

    科达嘉电感器广泛应用于大数据及人工智能领域为AI赋能

    近年来,大数据与人工智能成为科技领域的热门话题。大数据为人工智能提供了大量的数据作为输入,使得人工智能算法和模型能够通过学习做出更准确的预测和决策
    的头像 发表于 02-23 17:29 780次阅读

    大数据技术是干嘛的 大数据核心技术有哪些

    大数据技术是指用来处理和存储海量、多类型、高速的数据的一系列技术和工具。现如今,大数据已经渗透到各个行业和领域,对企业决策和业务发展起到了重要作用。本文将详细介绍
    的头像 发表于 01-31 11:07 2917次阅读

    灌区信息化系统介绍(大数据分析为农业决策提供支持)

    智慧灌区平台由数据监测系统、设备控制系统和决策支持系统三部分组成。数据监测系统集成了水位计、流量计等传感设备,实时监测灌区的水文信息,并利用气象站和土壤探测器监测气象、土壤数据。设备控
    的头像 发表于 01-23 10:46 746次阅读
    灌区信息化系统介绍(<b class='flag-5'>大数据</b>分析为农业<b class='flag-5'>决策</b>提供支持)

    决策树:技术全解与案例实战

    决策树算法是机器学习领域的基石之一,其强大的数据分割能力让它在各种预测和分类问题中扮演着重要的角色。
    的头像 发表于 12-13 09:49 1126次阅读
    <b class='flag-5'>决策树</b>:技术全解与案例实战

    Get职场新知识:做分析,用大数据分析工具

    为什么企业每天累积那么多的数据,也做数据分析,但最后决策还是靠经验?很大程度上是因为这些数据都被以不同的指标和存储方式放在各自的系统中,这就导致了
    发表于 12-05 09:36

    与二叉的定义

    型结构 是一类重要的 非线性数据结构 ,其中以和二叉最为常用,直观来看,是以分支关系定义的层次结构。
    的头像 发表于 11-24 15:57 1215次阅读
    <b class='flag-5'>树</b>与二叉<b class='flag-5'>树</b>的定义

    一种基于决策树的飞机级故障诊断建模方法研究

    、预测和管理飞机的运行状态。鉴于此,将机器学习中的决策树算法应用到故障诊断技术中,建立了复杂的数学模型,提出了一种基于飞机状态参数构成的决策树的飞机级故障诊断建模方法,对飞机健康管理应用的发展具有一定的参考意义,有利于健康管理系统朝着更加综合化、智能化、网络化和标准化的方
    的头像 发表于 11-16 16:40 918次阅读
    一种基于<b class='flag-5'>决策树</b>的飞机级故障诊断建模方法研究

    红黑的特点及应用

    ,内核会在内存开辟一个空间存放epoll的红黑,并将每个epollfd加入到红黑中,一般epoll会设置LT水平触发,当网卡有数据到来,可读缓冲区不为空,会触发回调EPOLLIN事件,而之前注册了对EPOLLIN事件感兴趣的
    的头像 发表于 11-10 11:16 681次阅读
    红黑<b class='flag-5'>树</b>的特点及应用