两种关联规则挖掘算法的介绍及其主要步骤的分析
关联规则按照不同的标准,能用各种不同的方法分成不同类型。将关联规则分为挖掘频繁项集、闭频繁项集、被约束频繁项集、极大频繁项集,是根据挖掘模式的完全性分类的;将关联规则分为多层和单层关联规则,以及单位和多维关联规则是根据规则所涉及的数据进行分类的;将关联规则分为量化关联规则和挖掘布尔型规则是根据规则处理值类型分类的;将关联规则分为序列模式挖掘、频繁项集挖掘以及结构模式挖掘是根据俄关联规则挖掘模式进行分类的;将关联规则分为兴趣度约束、知识类型约束、数据约束,是根据规则所挖掘的约束类型分类的。
关联规则挖掘算法分析
1 Apriori 算法分析
关联规则算法中的挖掘完全频繁项集中,Apriori 算法该类型中最具有应用价值,影响力最大的算法。
Apriori 算法主要有两个步骤:
(1)发现所有的频繁集;
(2)生成强关联规则。
在 Apriori 算法中的第一步是最为重要的步骤,该算法的核心思路是,给定一个数据库,在第一次数据库扫描中找出所有支持度大于等于最小支持度的项目组成频繁 1—项集,也就是 L1,1—项集 C1,由 L1进行连接得到;接着进行第二次数据库扫描,将 C1中所有支持度大于等于最小支持度的项集组成频繁 2—项集,也就是 L2,候选 2—项集 C2由 L2连接得到。以此类推,直到找出最大项频繁集。即在进行第 N 次数据库扫描时,找出 CN-1中所有支持度大于等于最小支持度的项集组成频繁N—项集,即是 LN,N—项集 CN要由 LN连接得出,一直到找不出新的选集为止。在这里还要用到 Apriori 算法性质,即是频繁项集是频繁项集的子集,非频繁项集是非频繁项集的超集。在 Apriori 算法中对数据库的扫描次数需要大于最大频繁项集的项数。
非常好我支持^.^
(1) 100%
不好我反对
(0) 0%