当前时代大数据炙手可热,数据挖掘也是人人有所耳闻,但是关于数据挖掘更具体的算法,外行人了解的就少之甚少了。
数据挖掘主要分为分类算法,聚类算法和关联规则三大类,这三类基本上涵盖了目前商业市场对算法的所有需求。而这三类里又包含许多经典算法。而今天,小编就给大家介绍下数据挖掘中最经典的十大算法,希望它对你有所帮助。
图1.jpg (1.89 MB, 下载次数: 0)
半小时前 上传
一、 分类决策树算法C4.5C4.5,是机器学习算法中的一种分类决策树算法,它是决策树(决策树,就是做决策的节点间的组织方式像一棵倒栽树)核心算法ID3的改进算法,
C4.5相比于ID3改进的地方有:
1、用信息增益率选择属性
ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的是熵(shang),一种不纯度度量准则,也就是熵的变化值,而C4.5用的是信息增益率。区别就在于一个是信息增益,一个是信息增益率。
2、 在树构造过程中进行剪枝,在构造决策树的时候,那些挂着几个元素的节点,不考虑最好,不然容易导致过拟。
3、能对非离散数据和不完整数据进行处理。
该算法适用于临床决策、生产制造、文档分析、生物信息学、空间数据建模等领域。
二、K平均算法
K平均算法(k-means algorithm)是一个聚类算法,把n个分类对象根据它们的属性分为k类(k
从算法的表现上来说,它并不保证一定得到全局最优解,最终解的质量很大程度上取决于初始化的分组。由于该算法的速度很快,因此常用的一种方法是多次运行k平均算法,选择最优解。
k-Means 算法常用于图片分割、归类商品和分析客户。
三、支持向量机算法
支持向量机(Support Vector Machine)算法,简记为SVM,是一种监督式学习的方法,广泛用于统计分类以及回归分析中。
SVM的主要思想可以概括为两点:
(1)它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分;
(2)它基于结构风险最小化理论之上,在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。
四、The Apriori algorithm
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法,其核心是基于两阶段“频繁项集”思想的递推算法。其涉及到的关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
该算法的基本思想是:首先找出所有的频集,这些频集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推方法。
在消费市场价格分析、入侵检测、移动通信领域等领域,Apriori 算法都有着广泛的用武之地。
五、最大期望(EM)算法
在统计计算中,最大期望(EM,Expectation–Maximization)算法是在概率模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量。最大期望经常用在机器学习和计算机视觉的数据集聚领域。
最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),也就是将隐藏变量象能够观测到的一样包含在内从而计算最大似然的期望值;第二步是最大化(M),也就是最大化在E步上找到的最大似然的期望值从而计算参数的最大似然估计。M步上找到的参数然后用于另外一个E步计算,这个过程不断交替进行。
六、Page Rank算法
Page Rank是Google算法的重要内容。Page Rank根据网站的外部链接和内部链接的数量和质量,衡量网站的价值。
Page Rank背后的概念是每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。这就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。
毫无疑问,PageRank 算法是一种相当适合爬虫、页面排序、文献检索及搜索引擎的算法。
七、Ada Boost 迭代算法
Ada boost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。
从原理上说,它本身是通过改变数据分布来实现计算的。Adaboost 算法根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器(强分类器)。
它被广泛应用于人脸检测、目标识别等领域。
八、kNN 最近邻分类算法
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
KNN算法不仅可以用于分类,还可以用于回归。通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值,如权值与距离成正比。
该算法适合处理稀有事件的分类问题,例如:
客户流失预测、欺诈侦测等等。
九、Naive Bayes 朴素贝叶斯算法
在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型和朴素贝叶斯模型(Naive Bayesian Model,NBC)。
Naive Bayes 算法通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,并选择具有最大后验概率的类作为该对象所属的类。朴素贝叶斯模型所需估计的参数很少,对缺失数据不太敏感,其算法也比较简单。
其常用于处理垃圾邮件过滤和文本分类。
十、CART: 分类与回归树算法
分类与回归树算法(CART,Classification and Regression Trees)是分类数据挖掘算法的一种,有两个关键的思想:第一个是关于递归地划分自变量空间的想法;第二个想法是用验证数据进行剪枝。
其抽取规则简便且易于理解,而且在计算时往往只需要用简单的乘法,因此降低了计算的负荷,在面对存在缺失值、变量数多等问题时表现非常稳健。
CART算法可应用于信息失真识别、潜在客户识别、预测贷款风险等场景。
那么亲该专注哪种算法呢,小编觉得每一种算法都是经典,每一种算法都值得去学习。至于要用哪种算法?还得看实际的应用场景和业务需求!
总结一句话:数据挖掘之路漫漫而修远,潜心修炼方能修成正果!
最后欢迎关注小编或添加小编微信公众号“中移模组”,我们等你一起加入探讨的喔!
中移物联网有限公司是中国移动通信集团公司出资成立的全资子公司。公司按照中国移动整体战略布局,围绕“物联网业务服务的支撑者、专用模组和芯片的提供者、物联网专用产品的推动者”的战略定位, 专业化运营物联网专用网络,设计生产物联网专用模组和芯片,打造车联网、智能家居、智能穿戴等特色产品,开发运营物联网连接管理平台OneLink和物联网开放平台OneNET,推广物联网解决方案,形成了五大方向业务布局和物联网“云-管-端”全方位的体系架构。为向社会提供更加优质的物联网技术、产品及服务,推动产业发展,公司密切协同中国移动各省公司及专业公司, 以开放、合作、共享的发展理念,广泛开展国际、国内企业合作,以市场化机制独立运作,力争成为立足全国,服务全球的物联网领先企业,推动物联网在各行业的规模应用。
评论
查看更多