机器学习之关联分析介绍-电子发烧友网

数据挖掘中应用较多的技术是机器学习。机器学习主流算法包括三种：关联分析、分类分析、聚类分析。本文主要介绍关联分析。

一、关联分析概述

关联分析可发现大量数据中隐藏的相关性（统计学的相关性分析不能直接发现数据中隐藏的相关性，需先人为猜测各变量间可能相关，再通过统计学计算相关性强弱），进而描述事物同时出现的规律和模式，被描述出的规律和模式可应用于市场营销、事务分析等领域。

例如：某超市可通过关联分析得出消费者购买牛奶和购买面包隐含的相关性。如果有关购买牛奶和购买面包衡量指标大于某一阈值，说明此二者相关，超市可以通过将售卖牛奶和面包的货架靠近或推出牛奶和面包的组合装促销。

二、置信度与支持度

置信度与支持度是关联分析的衡量指标。

置信度是指包含关联规则所有特征（个人理解：特征可被理解为变量，包括自变量和因变量）的数据数量占包含自变量数据数量的比例。置信度高表示关联规则所表示的自变量与因变量的相关性高。

支持度是指包含关联规则的所有特征的数据数量占总数据数量的比例。支持度高表示关联规则的出现频率高，该关联规则的重要性高。如果关联规则的置信度高，但支持度低，表示该关联规则出现频率低，重要性低，利用价值低。

关联分析需寻找支持度和置信度分别高于预先设定的支持度阈值和置信度阈值的关联规则，该种关联规则被称为强关联规则。不小于支持度阈值的关联规则被称为频繁规则，不小于支持度阈值的特征集被称为频繁项集（项集可被理解为特征集，项、特征的具象化事物可以是商品，个人理解：频繁规则和频繁项集是一种事物两个维度的表述）。

三、Apriori定律

在大数据关联分析中，如果采用枚举的方式找出所有的频繁项集，则计算效率较低。因此，关联分析可通过以下定律，简化频繁项集的确定过程。

Apriori定律1：频繁项集的子集也是频繁项集。如图一所示，如果{C，D，E}是频繁项集，意味着{C，D，E}在大数据中出现的频率不小于支持度阈值，那么其子集如{C，D}在大数据出现的频率也一定不小于支持度阈值，即为频繁项集。

图一，图片来源：哔哩哔哩《数据科学导论》

Apriori定律2：非频繁项集的超集（个人理解：某集合的超集是包含该集合的集合）也不是频繁项集。如图二所示，如果{A，B}不是频繁项集，意味着{A，B}在大数据中出现的频率小于支持度阈值，那么其超集如{A，B，C}在大数据出现的频率也一定小于支持度阈值，即不是频繁项集。

图二，图片来源：哔哩哔哩《数据科学导论》

以上两定律在Apriori算法中被应用，Apriori算法是一种关联分析算法。

四、关联规则学习步骤

（1）找出所有的频繁项集。

（2）根据频繁项集生成频繁规则。

（3）根据置信度指标进一步筛选频繁规则。

五、确定候选项集的注意事项

在选择候选项集（个人理解：候选项集指未进行置信度筛选的频繁项集）需注意：

（1）应当避免产生太多不必要的候选项集。

（2）候选项集中不遗漏频繁项集。

（3）不产生重复候选项集。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器学习

机器学习

+关注

关注
66

文章
8458

浏览量
133212
Apriori算法

Apriori算法

+关注

关注
0

文章
14

浏览量
10583

原文标题：大数据相关介绍（24）——机器学习之关联分析

文章出处：【微信号：行业学习与研究，微信公众号：行业学习与研究】欢迎添加关注！文章转载请注明出处。

嵌入式机器学习的应用特性与软件开发环境

设备和智能传感器）上，这些设备通常具有有限的计算能力、存储空间和功耗。本文将您介绍嵌入式机器学习的应用特性，以及常见的机器学习开发软件与开发

发表于 01-25 17:05 •224次阅读

嵌入式<b class='flag-5'>机器</b><b class='flag-5'>学习</b>的应用特性与软件开发环境

【「具身智能机器人系统」阅读体验】+两本互为支持的书

最近在阅读《具身智能机器人系统》这本书的同时，还读了《计算机视觉之PyTorch数字图像处理》一书，这两本书完全可以视为是互为依托的姊妹篇。《计算机视觉之PyTorch数字图像处理》是介绍

发表于 01-01 15:50

传统机器学习方法和应用指导

在上一篇文章中，我们介绍了机器学习的关键概念术语。在本文中，我们会介绍传统机器学习的基础知识和多

发表于 12-30 09:16 •446次阅读

zeta在机器学习中的应用 zeta的优缺点分析

在探讨ZETA在机器学习中的应用以及ZETA的优缺点时，需要明确的是，ZETA一词在不同领域可能有不同的含义和应用。以下是根据不同领域的ZETA进行的分析：一、ZETA在机器

发表于 12-20 09:11 •416次阅读

什么是机器学习？通过机器学习方法能解决哪些问题？

计算机系统自身的性能”。事实上，由于“经验”在计算机系统中主要以数据的形式存在，因此机器学习需要设法对数据进行分析学习，这就使得它逐渐成为智能数据分

发表于 11-16 01:07 •563次阅读

【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

本人有些机器学习的基础，理解起来一点也不轻松，加油。作者首先说明了时间序列的信息提取是时间序列分析的一个重要环节，目标是从给定的时间序列数据中提取出有用的信息和特征，以支持后续的分析

发表于 08-14 18:00

【「时间序列与机器学习」阅读体验】+ 鸟瞰这本书

清晰，从时间序列分析的基础理论出发，逐步深入到机器学习算法在时间序列预测中的应用，内容全面，循序渐进。每一章都经过精心设计，对理论知识进行了详细的阐述，对实际案例进行了生动的展示，使读者在理论与实践

发表于 08-12 11:28

【「时间序列与机器学习」阅读体验】+ 简单建议

这本书以其系统性的框架和深入浅出的讲解，为读者绘制了一幅时间序列分析与机器学习融合应用的宏伟蓝图。作者不仅扎实地构建了时间序列分析的基础知识，更巧妙地展示了

发表于 08-12 11:21

【《时间序列与机器学习》阅读体验】+ 了解时间序列

。可以探索现象发展变化的规律，对某些社会经济现象进行预测。利用时间序列可以在不同地区或国家之间进行对比分析，这也是统计分析的重要方法之一。而《时间序列与机器学习》一书的后几章分别

发表于 08-11 17:55

【「时间序列与机器学习」阅读体验】全书概览与时间序列概述

他领域(如自然语言处理、计算机视觉等)的关联。 ●第2章“时间序列的信息提取”:介绍特征工程的核心概念及其在时间序列分析中的广用，比如对原始数据进行归一化、缺失值填充等转换;以及如何通过特征工程从时间

发表于 08-07 23:03

机器学习在数据分析中的应用

随着大数据时代的到来，数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具，通过训练模型从数据中学习规律，为企业和组织提供了更高效、更准确的数据

发表于 07-02 11:22 •880次阅读

深度学习与传统机器学习的对比

在人工智能的浪潮中，机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步，为众多领域带来了革命性的变化。然而，尽管它们都属于机器

发表于 07-01 11:40 •1603次阅读

名单公布！【书籍评测活动NO.35】如何用「时间序列与机器学习」解锁未来？

应用，将理论基础与实践案例相结合，作者凭借扎实的数学功底及其在企业界的丰富实践经验，将机器学习与时间序列分析巧妙融合在书中。全书书共分为8章，系统介绍时间序列的基础知识、常用预测方法

发表于 06-25 15:00

图机器学习入门：基本概念介绍

图机器学习（GraphMachineLearning，简称GraphML）是机器学习的一个分支，专注于利用图形结构的数据。在图形结构中，数据以图的形式表示，其中的节点（或顶点）表示实体

发表于 05-16 08:27 •570次阅读

arcgis中如何关联两个属性表

在ArcGIS中，关联两个属性表是一个重要的操作，可以通过此操作将两个表中的数据关联起来，以便进行分析和查询。下面是详细介绍如何在ArcGIS中实现属性表的

发表于 02-25 11:01 •4583次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

机器学习之关联分析介绍

评论

嵌入式机器学习的应用特性与软件开发环境

【「具身智能机器人系统」阅读体验】+两本互为支持的书

传统机器学习方法和应用指导

zeta在机器学习中的应用 zeta的优缺点分析

什么是机器学习？通过机器学习方法能解决哪些问题？

【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

【「时间序列与机器学习」阅读体验】+ 鸟瞰这本书

【「时间序列与机器学习」阅读体验】+ 简单建议

【《时间序列与机器学习》阅读体验】+ 了解时间序列

【「时间序列与机器学习」阅读体验】全书概览与时间序列概述

机器学习在数据分析中的应用

深度学习与传统机器学习的对比

名单公布！【书籍评测活动NO.35】如何用「时间序列与机器学习」解锁未来？

图机器学习入门：基本概念介绍

arcgis中如何关联两个属性表