0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习之关联分析介绍

RG15206629988 来源:行业学习与研究 2023-03-25 14:13 次阅读

数据挖掘中应用较多的技术是机器学习。机器学习主流算法包括三种:关联分析、分类分析、聚类分析。本文主要介绍关联分析。

一、关联分析概述

关联分析可发现大量数据中隐藏的相关性(统计学的相关性分析不能直接发现数据中隐藏的相关性,需先人为猜测各变量间可能相关,再通过统计学计算相关性强弱),进而描述事物同时出现的规律和模式,被描述出的规律和模式可应用于市场营销、事务分析等领域。

例如:某超市可通过关联分析得出消费者购买牛奶和购买面包隐含的相关性。如果有关购买牛奶和购买面包衡量指标大于某一阈值,说明此二者相关,超市可以通过将售卖牛奶和面包的货架靠近或推出牛奶和面包的组合装促销。

二、置信度与支持度

置信度与支持度是关联分析的衡量指标。

置信度是指包含关联规则所有特征(个人理解:特征可被理解为变量,包括自变量和因变量)的数据数量占包含自变量数据数量的比例。置信度高表示关联规则所表示的自变量与因变量的相关性高。

支持度是指包含关联规则的所有特征的数据数量占总数据数量的比例。支持度高表示关联规则的出现频率高,该关联规则的重要性高。如果关联规则的置信度高,但支持度低,表示该关联规则出现频率低,重要性低,利用价值低。

关联分析需寻找支持度和置信度分别高于预先设定的支持度阈值和置信度阈值的关联规则,该种关联规则被称为强关联规则。不小于支持度阈值的关联规则被称为频繁规则,不小于支持度阈值的特征集被称为频繁项集(项集可被理解为特征集,项、特征的具象化事物可以是商品,个人理解:频繁规则和频繁项集是一种事物两个维度的表述)。

三、Apriori定律

在大数据关联分析中,如果采用枚举的方式找出所有的频繁项集,则计算效率较低。因此,关联分析可通过以下定律,简化频繁项集的确定过程。

Apriori定律1:频繁项集的子集也是频繁项集。如图一所示,如果{C,D,E}是频繁项集,意味着{C,D,E}在大数据中出现的频率不小于支持度阈值,那么其子集如{C,D}在大数据出现的频率也一定不小于支持度阈值,即为频繁项集。

1c18de38-cac8-11ed-bfe3-dac502259ad0.png

图一,图片来源:哔哩哔哩《数据科学导论》

Apriori定律2:非频繁项集的超集(个人理解:某集合的超集是包含该集合的集合)也不是频繁项集。如图二所示,如果{A,B}不是频繁项集,意味着{A,B}在大数据中出现的频率小于支持度阈值,那么其超集如{A,B,C}在大数据出现的频率也一定小于支持度阈值,即不是频繁项集。

1c37974c-cac8-11ed-bfe3-dac502259ad0.png

图二,图片来源:哔哩哔哩《数据科学导论》

以上两定律在Apriori算法中被应用,Apriori算法是一种关联分析算法。

四、关联规则学习步骤

(1)找出所有的频繁项集。

(2)根据频繁项集生成频繁规则。

(3)根据置信度指标进一步筛选频繁规则。

五、确定候选项集的注意事项

在选择候选项集(个人理解:候选项集指未进行置信度筛选的频繁项集)需注意:

(1)应当避免产生太多不必要的候选项集。

(2)候选项集中不遗漏频繁项集。

(3)不产生重复候选项集。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8373

    浏览量

    132393
  • Apriori算法
    +关注

    关注

    0

    文章

    14

    浏览量

    10556

原文标题:大数据相关介绍(24)——机器学习之关联分析

文章出处:【微信号:行业学习与研究,微信公众号:行业学习与研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    什么是机器学习?通过机器学习方法能解决哪些问题?

    计算机系统自身的性能”。事实上,由于“经验”在计算机系统中主要以数据的形式存在,因此机器学习需要设法对数据进行分析学习,这就使得它逐渐成为智能数据
    的头像 发表于 11-16 01:07 187次阅读
    什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>?通过<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法能解决哪些问题?

    NPU与机器学习算法的关系

    在人工智能领域,机器学习算法是实现智能系统的核心。随着数据量的激增和算法复杂度的提升,对计算资源的需求也在不断增长。NPU作为一种专门为深度学习机器
    的头像 发表于 11-15 09:19 258次阅读

    【「时间序列与机器学习」阅读体验】时间序列的信息提取

    个重要环节,目标是从给定的时间序列数据中提取出有用的信息和特征,以支持后续的分析和预测任务。 特征工程(Feature Engineering)是将数据转换为更好地表示潜在问题的特征,从而提高机器学习
    发表于 08-17 21:12

    【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

    本人有些机器学习的基础,理解起来一点也不轻松,加油。 作者首先说明了时间序列的信息提取是时间序列分析的一个重要环节,目标是从给定的时间序列数据中提取出有用的信息和特征,以支持后续的分析
    发表于 08-14 18:00

    【「时间序列与机器学习」阅读体验】+ 鸟瞰这本书

    清晰,从时间序列分析的基础理论出发,逐步深入到机器学习算法在时间序列预测中的应用,内容全面,循序渐进。每一章都经过精心设计,对理论知识进行了详细的阐述,对实际案例进行了生动的展示,使读者在理论与实践
    发表于 08-12 11:28

    【「时间序列与机器学习」阅读体验】+ 简单建议

    这本书以其系统性的框架和深入浅出的讲解,为读者绘制了一幅时间序列分析机器学习融合应用的宏伟蓝图。作者不仅扎实地构建了时间序列分析的基础知识,更巧妙地展示了
    发表于 08-12 11:21

    【《时间序列与机器学习》阅读体验】+ 了解时间序列

    。 可以探索现象发展变化的规律,对某些社会经济现象进行预测。 利用时间序列可以在不同地区或国家之间进行对比分析,这也是统计分析的重要方法之一。 而《时间序列与机器学习》一书的后几章分别
    发表于 08-11 17:55

    【「时间序列与机器学习」阅读体验】全书概览与时间序列概述

    他领域(如自然语言处理、计算机视觉等)的关联。 ●第2章“时间序列的信息提取”:介绍特征工程的核心概念及其在时间序列分析中的广用,比如对原始数据进行归一化、缺失值填充等转换;以及如何通过特征工程从时间
    发表于 08-07 23:03

    机器学习在数据分析中的应用

    随着大数据时代的到来,数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具,通过训练模型从数据中学习规律,为企业和组织提供了更高效、更准确的数据
    的头像 发表于 07-02 11:22 542次阅读

    深度学习与传统机器学习的对比

    在人工智能的浪潮中,机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步,为众多领域带来了革命性的变化。然而,尽管它们都属于机器
    的头像 发表于 07-01 11:40 1171次阅读

    名单公布!【书籍评测活动NO.35】如何用「时间序列与机器学习」解锁未来?

    应用,将理论基础与实践案例相结合,作者凭借扎实的数学功底及其在企业界的丰富实践经验,将机器学习与时间序列分析巧妙融合在书中。 全书书共分为8章,系统介绍时间序列的基础知识、常用预测方法
    发表于 06-25 15:00

    机器学习入门:基本概念介绍

    机器学习(GraphMachineLearning,简称GraphML)是机器学习的一个分支,专注于利用图形结构的数据。在图形结构中,数据以图的形式表示,其中的节点(或顶点)表示实体
    的头像 发表于 05-16 08:27 472次阅读
    图<b class='flag-5'>机器</b><b class='flag-5'>学习</b>入门:基本概念<b class='flag-5'>介绍</b>

    机器学习怎么进入人工智能

    ,人工智能已成为一个热门领域,涉及到多个行业和领域,例如语音识别、机器翻译、图像识别等。 在编程中进行人工智能的关键是使用机器学习算法,这是一类基于样本数据和模型训练来进行预测和判断的算法。下面将
    的头像 发表于 04-04 08:41 252次阅读

    arcgis中如何关联两个属性表

    在ArcGIS中,关联两个属性表是一个重要的操作,可以通过此操作将两个表中的数据关联起来,以便进行分析和查询。下面是详细介绍如何在ArcGIS中实现属性表的
    的头像 发表于 02-25 11:01 3976次阅读

    什么是机器学习?它的重要性体现在哪

    任务的解决方法。机器学习的重要性体现在几个方面数据处理能力:在当今数字化时代,我们产生了大量的数据。机器学习能够处理和分析这些庞大的数据集,
    的头像 发表于 01-05 08:27 1401次阅读
    什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>?它的重要性体现在哪