决策树C4.5算法属性取值优化研究
大小:0.36 MB 人气: 2017-12-12 需要积分:1
标签:决策树(13474)
决策树算法是一种最简单、最直接、最有效的文本分类算法。最早的决策树算法是ID3算法,于1986年由Quinlan提出,该算法是一种基于信息熵的决策树分类算法。由于该算法是以信息熵作为属性选择的标准,偏向于选择属性取值较多的属性,而属性取值较多的属性往往分类的贡献不大。因此,于1993年Quinlan在ID3算法的基础上又提出了一种改进算法,即C4.5算法。该算法采用信息增益率作为属性选择的标准,继承了ID3算法的所有优点,克服了ID3算法中偏向于选择属性取值较多的属性作为测试属性的不足,同时还能对连续属性与未知属性进行处理,在剪枝方面也有很大的改进。
C4.5算法作为经典的决策树分类算法,己被广泛的应用到各个领域。但其仍然存在以下不足之处:1)在计算信息增益的过程中(包括:分类所需信息量、信息熵、分割信息量)涉及的复杂的对数运算,计算机每一次计算都需要调用库函数,增大了生成决策树所需的时间开销;2)生成决策树中分支数量过多,部分分支还能进行合并,进一步精简生成决策树的结构。
本文针对生成决策树分支数量过多的不足,提出了一种新的属性取值优化方法,并用实例分析验证了该方法的有效性。
非常好我支持^.^
(0) 0%
不好我反对
(0) 0%
下载地址
决策树C4.5算法属性取值优化研究下载
相关电子资料下载
- 深入探讨机器学习的可视化技术 191
- 深度解析机器学习各大模型原理 1144
- 什么是随机森林?随机森林的工作原理 1851
- 机器学习基础知识全攻略 126
- 决策树:技术全解与案例实战 762
- 一种基于决策树的飞机级故障诊断建模方法研究 739
- 基于粗糙集联合决策树法的智能变电站远程调度管理优化 392
- 数据挖掘十大算法 2071
- 常见的机器学习算法及其应用场景 622
- 为什么GBDT用回归树不用分类树?CART决策树是怎么计算基尼值呢? 1396