您好,欢迎来电子发烧友网! ,新用户?[免费注册]

您的位置:电子发烧友网>源码下载>数值算法/人工智能>

决策树C4.5算法属性取值优化研究

大小:0.36 MB 人气: 2017-12-12 需要积分:1

  决策树算法是一种最简单、最直接、最有效的文本分类算法。最早的决策树算法是ID3算法,于1986年由Quinlan提出,该算法是一种基于信息熵的决策树分类算法。由于该算法是以信息熵作为属性选择的标准,偏向于选择属性取值较多的属性,而属性取值较多的属性往往分类的贡献不大。因此,于1993年Quinlan在ID3算法的基础上又提出了一种改进算法,即C4.5算法。该算法采用信息增益率作为属性选择的标准,继承了ID3算法的所有优点,克服了ID3算法中偏向于选择属性取值较多的属性作为测试属性的不足,同时还能对连续属性与未知属性进行处理,在剪枝方面也有很大的改进。

  C4.5算法作为经典的决策树分类算法,己被广泛的应用到各个领域。但其仍然存在以下不足之处:1)在计算信息增益的过程中(包括:分类所需信息量、信息熵、分割信息量)涉及的复杂的对数运算,计算机每一次计算都需要调用库函数,增大了生成决策树所需的时间开销;2)生成决策树中分支数量过多,部分分支还能进行合并,进一步精简生成决策树的结构。

  本文针对生成决策树分支数量过多的不足,提出了一种新的属性取值优化方法,并用实例分析验证了该方法的有效性。
 

非常好我支持^.^

(0) 0%

不好我反对

(0) 0%

      发表评论

      用户评论
      评价:好评中评差评

      发表评论,获取积分! 请遵守相关规定!