0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

想深度构建用户画像?掌握关联分析必不可少

格创东智 2019-04-28 19:08 次阅读

无论是提供商品还是服务,用户画像都是数据挖掘工作的重要一环。一个准确和完整的用户画像甚至可以说是许多互联网公司赖以生存的宝贵财富。


我们也已经听过了无数用户画像的神奇功能和成功案例,比如亚马逊、淘宝的机器学习团队使用用户的浏览行为、购物车状态和购买记录开发关联推荐系统,使点击率和销量大幅提升;比如应用市场根据过往APP安装记录记对每个使用者进行精准推荐;再比如音乐,图书和新闻网站通过协同过滤的方式为用户呈现个性化的定制内容。要做到这些,就必须对用户的数据进行关联分析,得到精准的推荐算法


今天的格物汇,就带大家来了解关联分析理论和经典的Apriori算法。

关联分析

关联分析是数据挖掘中一项基础又重要的技术,是一种在大型数据库中发现变量之间有趣关系的方法,能从数据中挖掘出潜在的关联关系。或者说,关联分析是发现交易数据库中不同商品(项)之间的联系。比如,在著名的购物篮事务(market basket transactions)问题中,用户在超市里购物数据如下:


IDItems
1牛奶,面包
2面包,尿布,啤酒,鸡蛋
3面包,尿布,啤酒,可乐
4牛奶,面包,尿布,啤酒
5牛奶,面包,可乐,鸡蛋


关联分析则被用来找出此类规则:顾客在买了某种商品时也会买另一种商品。在上述例子中,有的关联规则是很容易理解的比如:{牛奶}→{面包},此外我们还会挖掘出另外的某些规则: {尿布} → {啤酒};即顾客在买完尿布之后通常会买啤酒。后来通过调查分析,原来妻子嘱咐丈夫给孩子买尿布时,丈夫在买完尿布后通常会买自己喜欢的啤酒。


但是,如何衡量这种关联规则是否靠谱呢?我们需要如下指标来衡量。


支持度和置信度

我们想找出这样的规律需要从两个方面考虑:这个规律中的两个商品频繁出现,两个商品关联出现的概率较大。如果两个商品不是频繁出现的,那么有可能是小众群体的个别需求。我们把两个商品一起出现的概率称为支持度


如果有一个商品A出现的非常频繁比如90%,而另一个商品B虽然跟A一起出现的概率很大,但是概率大的原因是A出现的太频繁了,这也不能反映出其关联关系,我们把A出现B则出现的条件概率称为置信度

图片 1.png


Apriori算法

Apriori算法就是为了快速的找到数据中关联的频繁集,我们用一个具体的案例来看看吧:假设我们有4种商品:商品0,商品1,商品2和商品3。那么所有可能被一起购买的商品组合都有哪些?这些商品组合可能只有一种商品,比如商品0,也可能包括两种、三种或者所有四种商品。我们并不关心某人买了两件商品0以及四件商品2的情况,我们只关心他购买了一种或多种商品。我们可以穷举出该顾客购买商品所有可能的组合:


图片 2.png


一个简单粗暴的求解方法是:我们设定支持度和置信度的阈值——min_sup,min_cof,并算出每一个可能组合的支持度和置信度,把满足要求的组合筛选出来。如果我们的商品很多,这个方法的计算量将呈指数的增长,是很难实现的。

定理:如果一个项集是频繁的,那么其所有的子集(subsets)也一定是频繁的。

这个定理显而易见,假如{A,B,C}出现的概率大,那么{A,B},{C},出现的概率肯定也很大。这看上去没什么用,其实它的逆反定理更有用。

逆反定理:如果一个项集是非频繁的,那么其所有的超集(supersets)也一定是非频繁的。

假如{A}出现的概率很小,那么{A,C},{A,B,C}出现的概率肯定也很小。根据这个逆反定理,我们可以排除很多不必要的计算。


图片 3.png

比如我们发现{2,3}是非频繁的,那么{0,2,3},{1,2,3},{0,1,2,3}肯定都是非频繁的。就可以大大减少我们计算的复杂度。


Apriori算法流程

Apriori算法的目标是找到最大的K项频繁集,这里有两层意思,首先,我们要找到符合支持度标准的频繁集。但是这样的频繁集可能有很多。当然我们可以根据上面的逆反定理减少频繁集的计算范围,第二层意思就是我们要找到最大个数的频繁集。比如我们找到符合支持度的频繁集AB和ABE,那么我们会抛弃AB,只保留ABE,因为AB是2项频繁集,而ABE是3项频繁集。那么具体的,Apriori算法是如何做到挖掘K项频繁集的呢?我们可以看下面这个图:


图片 4.png


Apriori算法采用了迭代的方法,线设定支持度的阈值0.5,先搜索出候选1项集及对应的支持度C1,剪枝去掉低于支持度的1项集,也就是图C1中的{4},得到频繁1项集L1。然后对剩下的频繁1项集进行连接,得到候选的频繁2项集,筛选去掉低于支持度的候选频繁2项集C2,也就是图中C2的{1,2}和{1,5},得到真正的频繁二项集L2,以此类推,迭代下去,直到无法找到频繁k+1项集为止,对应的频繁k项集的集合即为算法的输出结果。也就是用户的购物篮中,商品2,商品3,商品5常常一起购买。

总而言之,Apriori算法是一个非常经典的频繁项集的挖掘算法,很多算法都借用了其算法的思想,并做出了改进,我们也将在格物汇之后的文章中进行分享。


本文作者:格创东智OT团队(转载请注明作者及来源)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
收藏 人收藏

    评论

    相关推荐

    IP风险画像如何维护网络安全

    在当今数字化时代,互联网已成为我们生活、工作不可或缺的一部分。然而,随着网络应用的日益广泛,网络安全问题也日益凸显。为了有效应对网络安全挑战,IP风险画像技术应运而生,正逐步成为构建网络安全新防线
    的头像 发表于 09-04 14:43 150次阅读

    时序逻辑电路必不可少的部分是什么

    时序逻辑电路必不可少的部分是 存储电路 ,这一结论主要基于时序逻辑电路的基本工作原理和特性。存储电路在时序逻辑电路中扮演着至关重要的角色,它使得电路能够存储和记忆之前的状态信息,并在需要时根据这些
    的头像 发表于 08-28 14:12 183次阅读

    混合冷却在数据中心中仍将是必不可少的#混合冷却

    数据中心
    深圳崧皓电子
    发布于 :2024年08月06日 06:58:06

    虚拟负载是电子学和无线电通信中必不可少的设备

    无线电通信
    深圳崧皓电子
    发布于 :2024年06月26日 06:48:26

    折弯机作业中必不可少的安全防护

    保护装置
    jf_18500570
    发布于 :2024年04月12日 10:47:27

    精密空调部件的日常保养与维护

    为了确保精密空调的稳定运行和高效能,延长精密空调使用寿命,日常保养与维护是必不可少的。
    的头像 发表于 03-06 00:01 964次阅读
    精密空调部件的日常保养与维护

    嵌入式工程师需要掌握哪些技术?

    系统开发的基础。你需要了解数字电路、模拟电路、传感器和执行器的工作原理。此外,对于处理器架构、总线协议和存储器管理等概念的理解也是必不可少的。 3. 操作系统:嵌入式系统通常需要运行一个实时操作系统
    发表于 03-04 16:38

    arcgis中如何关联两个属性表

    在ArcGIS中,关联两个属性表是一个重要的操作,可以通过此操作将两个表中的数据关联起来,以便进行分析和查询。下面是详细介绍如何在ArcGIS中实现属性表的关联。 首先,我们需要明确两
    的头像 发表于 02-25 11:01 3326次阅读

    数据采集分析系统为工业物联网系统提供多种智能应用

    在这个工业4.0的时代大背景之下,工业物联网成为数字化转型的重要组成部分。数据是关联设备资产和生产过程的重要信息,在工厂发展中实现智能应用与分析中是必不可少的,能够帮助提高生产效率、降低生产成本和能耗成本,提升单位时间产值,进而
    的头像 发表于 01-20 11:00 495次阅读

    追求卓越制造,ECRS工时分析必不可少!#工时分析

    软件
    VIOOVI
    发布于 :2024年01月10日 10:31:14

    示波器高压探棒—揭秘高品质示波器的关键配件

    示波器是电子工程师们必不可少的仪器之一,它能帮助我们观察和分析电信号的各种特征。而作为示波器中的重要配件,高压探棒的作用可谓举足轻重。
    的头像 发表于 11-24 10:51 453次阅读

    如何使用电阻器来解决限流问题?

    发光二极管 (LED) 是深入探索电子世界前必不可少的敲门砖。
    的头像 发表于 10-13 11:37 1107次阅读
    如何使用电阻器来解决限流问题?

    剃须刀必不可少的5W电源管理芯片U95113

    剃须刀必不可少的5W电源管理芯片U95113很多男性也是非常注重自己外在整洁的,像是剃须刀、电吹风、理发器这种个护电器也很受男性推崇。我国男性消费在消费种类、数量和品质上都发生了不小的变化,并开始在
    的头像 发表于 10-13 08:11 1104次阅读
    剃须刀<b class='flag-5'>必不可少</b>的5W电源管理芯片U95113

    EAC-T335-starterware用户手册

    一些应用实例(gpio/rtc/uart/usb等),这很方便我们在这些实例上进行裸机开发。裸机开发可以更好的进一步了解am335x,而且要做一些外围扩展,了解底层是必不可少。使用过程:从ti官网下载starterware软件包。
    发表于 10-09 09:07

    求助!我使用频谱分析仪器分析超声波频谱不知道可不可行?

    求助!我使用频谱分析仪器分析超声波频谱不知道可不可行?跪求大神给一套方案。 频谱分析仪(频谱范围是0hz-100mhz) 超声波探头中心频
    发表于 10-04 08:26