0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

打在用户身上标签的权重是如何确定的?

lviY_AI_shequ 来源:未知 作者:李倩 2018-08-09 11:07 次阅读

感谢大家长期以来对文章的关注,最近工作比较忙,好久没更新了。接下来的几篇文章想和大家分享下关于用户画像的一些东西。今天我们先从用户画像的标签权重开始聊起吧。

用户画像:即用户信息标签化,通过收集用户社会属性、消费习惯、偏好特征等各个维度数据,进而对用户或者产品特征属性的刻画,并对这些特征分析统计挖掘潜在价值信息,从而抽象出一个用户的信息全貌,可看做是企业应用大数据的根基,是定向广告投放与个性化推荐的前置条件。

先举个场景,程序员小Z在某电商平台上注册了账号,经过一段时间在该电商平台的web端/app端进行浏览、所搜、收藏商品、下单购物等系列行为,该电商平台数据库已全程记录该用户在平台上的行为,通过系列建模算法,给程序员小Z打上了符合其特征的标签(如下图所示)。此后程序员小Z在该电商平台的相关推荐版块上总能发现自己想买的商品,总能在下单前犹豫不决时收到优惠券的推送,总是在平台上越逛越喜欢....

上面的例子是用户画像一些应用场景。而本文主要分享的是打在用户身上标签的权重是如何确定的。

如上图所示,一个用户标签表里面包括常见的字段如:用户id、用户姓名、标签id、标签名称、用户与该标签发生行为的次数(如搜索了两次“大数据”这个关键词)、行为类型(不同的行为类型对应用户对商品不同的意愿强度,如购买某商品>收藏某商品>浏览某商品>搜索某商品),行为时间(越久远的时间对用户当前的影响越小,如5年前你会搜索一本高考的书,而现在你会搜索一本考研的书)。最后非常重要的一个字段是标签权重,该权重影响着对用户属性的归类,属性归类不准确,接下来基于画像对用户进行推荐、营销的准确性也就无从谈起了。下面我们来讲两种权重的划分方法:

1、基于TF-IDF算法的权重归类

TF-IDF算法是什么思想,这里不做详细展开,简而言之:一个词语的重要性随着它在该文章出现的次数成正比,随它在整个文档集中出现的次数成反比。

比如说我们这里有3个用户和4个标签,标签和用户之间的关系将会在一定程度上反应出标签之间的关系。这里我们用w(P , T)表示一个标签T被用于标记用户P的次数。TF(P , T)表示这个标记次数在用户P所有标签中所占的比重,公式如下图:

对上面的图来说,用户1身上打了标签A 5个,标签B 2个,标签C 1个,那么用户1身上的A标签TF=5/(5+2+1) 。相应的IDF(P , T)表示标签T在全部标签中的稀缺程度,即这个标签的出现几率。如果一个标签T出现几率很小,并且同时被用于标记某用户,这就使得该用户与该标签T之间的关系更加紧密。

然后我们根据TF * IDF即可得到该用户该标签的权重值。到这里还没结束,此时的权重是不考虑业务场景,仅考虑用户与标签之间的关系,显然是不够的。还需要考虑到该标签所处的业务场景、发生的时间距今多久、用户产生该标签的行为次数等等因素。我用个图总结下:

关于时间衰减的函数,根据发生时间的先后为用户行为数据分配权重。

时间衰减是指用户的行为会随着时间的过去,历史行为和当前的相关性不断减弱,在建立与时间衰减相关的函数时,我们可套用牛顿冷却定律数学模型。牛顿冷却定律描述的场景是:一个较热的物体在一个温度比这个物体低的环境下,这个较热的物体的温度是要降低的,周围的物体温度要上升,最后物体的温度和周围的温度达到平衡,在这个平衡的过程中,较热物体的温度F(t)是随着时间t的增长而呈现指数型衰减,其温度衰减公式为:

F(t)=初始温度×exp(-冷却系数×间隔的时间)

其中α为衰减常数,通过回归可计算得出。例如:指定45分钟后物体温度为初始温度的0.5,即 0.5=1×exp(-a×45),求得α=0.1556。

2、基于相关系数矩阵的权重归类

这个相关系数矩阵听title挺困难,其实道理十分简单。举个例子:用户1身上打上了5个A标签、2个B标签、1个C标签;用户2身上打上了4个A标签,3个B标签;用户3身上打上了4个C标签、1个D标签。

用个图形象表示一下:

那么同时打上A、B标签的用户有两个人,这就说明AB之间可能存在某种相关性,当用户量、标签量级越多时,标签两两之间的相关性也越明显。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4586

    浏览量

    92461
  • 权重
    +关注

    关注

    0

    文章

    12

    浏览量

    7578
  • 标签
    +关注

    关注

    0

    文章

    136

    浏览量

    17854

原文标题:用户画像之标签权重算法

文章出处:【微信号:AI_shequ,微信公众号:人工智能爱好者社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    怎样分析一个网站的权重

    怎样分析一个网站的权重 权重分析方式之一  网站收录量和网站收录速度。关于网站收录,北京网站推广一般通过site这个语法去查询,而收录速度就是我们所说的当天收录,比如说A5和A5论坛里面就是秒收
    发表于 04-19 14:58

    这款智能纹身可将健康传感器放在用户皮肤上?

    像智能手表这样的健康追踪设备存在一个共同的问题:它们并不是真的附着在你身上,你只能依赖于一个短暂的电池和一个无线连接,即使是一个自供电的补丁也有其局限性。而这正是哈佛和麻省理工学院认为他们可以提供帮助的地方:他们开发出了一种智能纹身,可以有效地将健康传感器放置在用户的皮肤
    发表于 05-20 07:28

    如何在用户空间操作IIO设备

    关注、星标嵌入式客栈,精彩及时送达[导读] 朋友们,大家好,我是逸珺。今天分享一下如何在用户空间操作IIO设备。IIO设备能实现很多有价值的应用,有兴趣的一起来看看~什么是IIO设备 II...
    发表于 09-08 08:02

    如何让CubeMX生成带有给IO的用户标签的代码?

    我使用的是最新版本 6.4.0。我为某些 IO 配置使用了用户标签,但是在生成代码时,代码没有使用用户标签;对于前 PC4,我使用 LED_1 作为
    发表于 12-01 06:20

    如何从esp32内获取mac地址,然后自动打印成标签贴在机身上呢?

    如何从esp32内获取mac地址,然后自动打印成标签贴在机身上呢这玩意没有自动化的一套东西很麻烦啊
    发表于 03-06 07:23

    一种基于标签概率相关性的微博推荐方法

    方法利用标签之间的概率相关性,构造标签相似性矩阵。然后通过相关性标签权重加权方案,加强标签权重
    发表于 11-17 14:54 13次下载
    一种基于<b class='flag-5'>标签</b>概率相关性的微博推荐方法

    基于标签传播的社交网络的社区发现模型

    团(UMC)并对每个UMC中的节点赋予唯一标签来减少冗余标签,提高社区发现的效率以及稳定性。标签更新时以UMC作为核心单位采用亲密度的方式由中心向四周更新UMC邻接节点的标签
    发表于 01-04 16:49 0次下载
    基于<b class='flag-5'>标签</b>传播的社交网络的社区发现模型

    如何计算用户的偏好标签

    行为类型权重用户浏览、搜索、收藏、下单、购买等不同行为对用户而言有着不同的重要性,一般而言操作复杂度越高的行为权重越大。该权重值一般由运营
    的头像 发表于 09-04 17:18 1.1w次阅读

    如何使用标签权重进行协同过滤推荐算法的资料说明

    针对传统协同过滤推荐 算法中由于相似度计算导致推荐精度不足的问题,提出一种基于标签权重相似度量方法的协同过滤推荐算法。首先,通过改进当前算法中标签权重的计算,并构成
    发表于 05-14 17:34 1次下载
    如何使用<b class='flag-5'>标签</b><b class='flag-5'>权重</b>进行协同过滤推荐算法的资料说明

    电子标签的核心部分是什么

    电子标签由芯片及天线组成,附着在物体上标识目标对象,每个电子标签具有唯一的电子编码,存储着被识别物体的相关信息。
    发表于 04-20 16:44 2195次阅读
    电子<b class='flag-5'>标签</b>的核心部分是什么

    贴片电阻上标注的数字是什么意思?资料下载

    电子发烧友网为你提供贴片电阻上标注的数字是什么意思?资料下载的电子资料下载,更有其他相关的电路图、源代码、课件教程、中文资料、英文资料、参考设计、用户指南、解决方案等资料,希望可以帮助到广大的电子工程师们。
    发表于 04-15 08:47 10次下载
    贴片电阻<b class='flag-5'>上标</b>注的数字是什么意思?资料下载

    可解决高冲突证据合成问题的证据权重确定方法

    为对证据源进行合理修正,解决高冲突证据合成时存在的问题,提岀了一种新的证据权重确定方法。首先利用证据之间的局部冲突和相似性求出各个证据的全局冲突系数;其次取全局冲突系数的反值作为证据的权重并利用该
    发表于 04-22 14:07 0次下载
    可解决高冲突证据合成问题的证据<b class='flag-5'>权重</b><b class='flag-5'>确定</b>方法

    一种基于用户偏好的权重搜索及告警选择方法

    问题的复杂性建立评估函数,并给出偏好权重的选择策略。对不同告警及其对应的用户偏好权重建立效用函数,确定需优先解决的告警,并在成本约束下完成基于用户
    发表于 04-29 16:26 4次下载
    一种基于<b class='flag-5'>用户</b>偏好的<b class='flag-5'>权重</b>搜索及告警选择方法

    PCB中过孔为什么不能打在焊盘上

    过孔为什么不能打在焊盘上,我就想打,怎么办?很多新手在刚接触到PCB的时候经常会出现这个问题,由于板子空间过小,器件密集导致空间狭小,无法引线扇孔,通常就会选择把过孔打在焊盘上,这样子虽然使自己连线
    的头像 发表于 11-03 15:37 1.5w次阅读

    在用机器人与未来机器人并行推进的权重关系

    在用机器人与未来机器人并行推进的权重关系
    的头像 发表于 08-01 08:14 427次阅读
    <b class='flag-5'>在用</b>机器人与未来机器人并行推进的<b class='flag-5'>权重</b>关系