海量嘈杂数据决策树算法
大小:0.73 MB 人气: 2018-01-13 需要积分:2
标签:决策树(13474)
针对当前决策树算法较少考虑训练集的嘈杂程度对模型的影响,以及传统驻留内存算法处理海量数据困难的问题,提出一种基于Hadoop平台的不确定概率C4.5算法-IP-C4.5算法。在训练模型时,IP-C4.5算法认为用于建树的训练集是不可靠的,通过用基于不确定概率的信息增益率作为分裂属性选择标准,减小了训练集的嘈杂性对模型的影响。在Hadoop平台下,通过将IP-C4.5算法以文件分裂的方式进行MapReduce化程序设计,增强了处理海量数据的能力。与C4.5和完全信条树(CCDT)算法的对比实验结果表明,在训练集数据是嘈杂的情况下,IP-C4.5算法的准确率相对更高,尤其当数据嘈杂度大于10%时,表现更加优秀;并且基于Hadoop的并行化的IP-C4.5算法具有处理海量数据的能力。
非常好我支持^.^
(0) 0%
不好我反对
(0) 0%
下载地址
海量嘈杂数据决策树算法下载
相关电子资料下载
- 深入探讨机器学习的可视化技术 191
- 深度解析机器学习各大模型原理 1144
- 什么是随机森林?随机森林的工作原理 1851
- 机器学习基础知识全攻略 126
- 决策树:技术全解与案例实战 762
- 一种基于决策树的飞机级故障诊断建模方法研究 739
- 基于粗糙集联合决策树法的智能变电站远程调度管理优化 392
- 数据挖掘十大算法 2071
- 常见的机器学习算法及其应用场景 622
- 为什么GBDT用回归树不用分类树?CART决策树是怎么计算基尼值呢? 1396