数据挖掘的四类方法
1、神经网络方法
由于神经网络本身具有良好的鲁棒性、自组织适应性、自行处理性、分布存储和高度容错等特性,非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注和使用。典型的神经网络模型主要分3大类:以感知机、BP反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的神经网络模型;以Hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以ART模型、Koholon模型为代表的,用于聚类的自组织映射方法。神经网络方法的缺点是“黑箱”性,人们难以从网络中理解学习和决策过程。
2、遗传算法
遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种遗传仿生的全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。遗传算法的数据挖掘工具,利用该工具对两个飞机失事的真实数据库进行了数据挖掘实验,结果表明遗传算法是进行数据挖掘的有效方法之一。遗传算法的应用还体现在与神经网络、粗集等技术的结合上。利用遗传算法优化神经网络结构,在不增加错误率的前提下,删除多余的连接和隐层数据单元;用遗传算法和BP算法结合训练神经网络,然后从网络提取规则等。但遗传算法的算法较为之复杂,敛于局部极小的较早敛入问题尚未解决。
3、决策树方法
决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的和潜在的信息。它的优点是描述简单,分类速度快,适合于对大规模的数据处理。最有影响和最早的决策树方法是ID3算法。它的主要问题是:ID3是非递增学习算法;ID3决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系不够强调;抗噪音性差。针对上述问题,出现了许多较好较为改进算法的ID4递增式学习算法和IBLE算法等。
4、粗集方法
粗集方法专注于研究不精确、不确定知识的数学工具。粗集方法有几个优点,不需要再提供额外信息;加强简化输入信息的表达空间;算法较为简单,容易操作操作。粗集处理的对象是类似于二维关系的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。但粗集的数学基础是集合论,难以直接处理连续性问题的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点重点。现在国际上已经研制出来了一些基于粗集的工具应用软件,例如加拿大KDD-R软件和美国的LERS软件等。
-
数据挖掘
+关注
关注
1文章
406浏览量
24237
发布评论请先 登录
相关推荐
评论