提供全域数据与服务的画像标签体系-电子发烧友网

阿里

为打破数据孤岛，创造更大的数据价值，阿里设计了OneEntity来提供全域数据与服务。OneEntity体系主要包含统一实体、全域标签、全域关系、全域行为4大类。

标签分类

其中GProfile全域标签的分类，将“人”的立体刻画划分为“人的核心属性”和“人的向往与需求”2大部分，具体包含4大类：

人的核心属性，可分为自然属性、社会属性。

-自然属性：是指人的肉体存在及其特征，是人自出生后自然存在的，一般不会因人为因素发生较大的改变。例如“性别”“生肖”“年龄”“身高”“体重”等。

-社会属性：指人在实践活动基础上产生的一切社会关系的总和。人一旦进入社会就会产生社会属性。例如经济状况、家庭状况、社会地位、政治宗教、地理位置、价值观等。

人的向往与需求，可分为兴趣偏好、行为消费偏好。

-兴趣偏好：是人堆非物化对象的内在心理向往与外在行为表达，是一种法子内心的本能喜好，与物质无必然关系。例如渴望爱情、需要安全感、讨厌脏乱环境等。

-行为消费偏好：是人对物化对象的需求与外在行为表达，涉及各行业，与物质世界存在千丝万缕的联系。例如母婴行业偏好、美妆行业偏好、洗护行业偏好、家装行业偏好等。

在以上四大类的基础上，我们又尝试根据不同的业务形态进一步细分二级、三级分类。

标签萃取

标签的萃取工作包含：数据采集；清洗，去噪声并统一；反复试用并确定最佳算法及模型；为模型选择计算因子并对模型中的每一个计算因子调配权重；产出标签质量评估报告以辅助验收。

我们随机抽查了若干个在用的标签，预估工作量和工作周期，一个有价值的标签的萃取，平均耗时2周。

慢的主要原因，一是由于萃取流程复杂，每个标签萃取都依赖底层的基础数据，而较少依赖上一层汇总的数据中间层数据；二是大量重复的人力，对应的标签萃取逻辑时可以复用的，包含算法的选择、模型训练和计算因子的加权等，但由于不同人来做，造成了很多重复工作。

标签萃取过程复杂，那有什么可以参考的流程呢？

首先，数据源层面：建设一套完整的数据源，以OneEntity体系为核心，将OneEntity相关实体及其行为全部串联起来，与存量的标签一起作为数据源。

其次，标签计算层面：将标签萃取逻辑沉淀为2种，分别对应到偏好类标签和分类预测类标签的工具型产品的生产过程中，包含计算因子、权重等业务规则、数据样本选择、模型与算法选择等。

最后，标签监测层面：沉淀质量评估报告和生产监测、上线等管理流程。

当一整套工具型产品上线之后，批量生产十几个同类型标签只需要2天左右，这是因为在补足数据源、确定业务规则、选择数据样本、选择算法与模型的过程中，减少了大量的代码开发与模型训练的工作。

在这个过程中，参与的角色也发生了变化，从原本的以数据产品经理、数仓工程师、数据科学家为主导，转变为对业务更为熟悉的业务人员、数据分析师为主导。

网易

网易大数据融合用户娱乐、电商购物、教育、新闻资讯、通讯等多行业10+产品线，构建起全域用户画像数据，目前总标签1000+，ID量URS、phone、idfa、IMEI、oaid等均达到忆级。

标签分类

1.基础标签：

性别、年龄、教育背景、生活习惯（早起晚起）、地理位置（POI信息）、职业状况、经济情况（有车有房）、设备信息（手机、运营商等）、会员信息（会员等级）、衍生信息。

其中衍生标签，如评估是否已婚，在原由标签体系下没有此类标签，但可通过多个标签进行组合生成新的标签，包含是否有小孩、30岁等条件组合。

2. 行为标签

包含地域、广告、搜过、播放、点击、评论、关注、收藏、购买等维度。

3. 偏好标签

包含出行购物、手机数码、家装家居、教育公益、文化娱乐、新闻资讯、金融理财、游戏竞技、动漫影视、明星艺人等维度

4. 预测标签

包含利用算法进行预测生成的标签，包含是否出行、是否买车等标签。

注意：

1. 标签的枚举值十分重要，业务分析过程中很容易出现枚举值的偏差，不符合实际业务逻辑

2. 注意标签之间的冲突，如年龄15岁，学历却是博士或者有小孩

标签计算

预测类标签案例：性别，主要包含三种方案：

1. 标签传播：根据用户在各个业务场景，如母婴商品点击行为，进行item标记，构建user-item的兴趣网络进行 Graph Embedding，最后进行分类，预测用户的性别。

2. 语义分析：利用NLP算法对用户昵称进行语义分析

3. 自行填写：利用业务属性自行填写的内容进行判断，此处需对数据质量进行过滤，排除如生日为1990-01-01的参数异常值信息。

基于上述三类算法特征结果集，对模型进行融合，然后对用户的性别进行预测，其准确率在0.6以上。

注意：需要突破的地方在于特征的稀疏性，因为ID-mapping打通后，数据覆盖率仅20%左右，严重影响了模型的整体效果。

汽车之家

用户画像的构建就是把用户标签分列到不同的类里面，这些类都是什么，彼此之间的联系，就构成了标签体系。

按用途分类

1.人口属性：用户自然属性、用户会员、用户所属年代、用户价值登记、是否增换购用户、用户分群、UVN-B用户分群、用户分层、用户流失预警

2.网络属性：用户APP设备信息、用户PC设备信息、用户活跃时段、用户平台偏好、用户活跃类型

3.内容兴趣偏好：业务类型偏好、内容分类标签、用户关注作者偏好、用户产品偏好、用户显式负反馈、用户论坛偏好、车友圈偏好、用户兴趣栏目

4.车兴趣偏好：用户短期兴趣车偏好、用户兴趣车偏好、配置偏好、用户颜色偏好、用户购车目的、用户置换偏好、用户推荐有车、二手车用户偏好、用户购车意向、用户新旧偏好、用户购车阶段、用户有车标签、用户兴趣集中度、用户能源偏好、用户生产方式偏好

5.金融画像：分期购车意向度、用户购买力、二手车用户购买力、用户汽车价格偏好、用户经济属性、增换购用户预测线索

6.场景画像：用户地理位置

按统计方式分类

1.统计类标签

统计类标签，通过业务规则，将业务问题转化为数据口径实现。如收藏列表、搜索关键词、保险到期时间、是否下过线索、30天内访问xx次等。

2.兴趣类标签

兴趣类标签，基于兴趣迁移模型构建用户标签。综合考虑特征、特征权重、距今时间、行为次数等因素，用户兴趣标签构建公式如下：

用户兴趣标签=行为类型权重*时间衰减*行为次数

-特征：需要结合业务选择，如浏览、搜索、线索、对比、互动、点击、有车等行为。

-权重：用户在平台上发生的行为具体到用户标签层面有着不同的行为权重，一般而言，行为发生的成本越高，权重越大。可以由业务人员确定，也可以采用TF-IDF技术分析得出。

-时间衰减：用户行为收时间的影响不断衰减，距离现在越远，对用户兴趣的影响越低，这里采用牛顿冷却定律的思想拟合衰减系数，衰减周期结合业务制定。

-行为次数：在固定时间周期内行为发生的次数越多，兴趣倾向越重。

3.模型类标签

基于机器学习方法进行数据建模预测用户的标签，这类标签在标签体系中占比较少，其实现难度高，开发成本高。

例如：

-是否有车：基于RF+LR模型实现

-常驻地：基于GPS聚类获取，采用DBSCAN

-购车转化：GBDT

-用户分群：KMENAS聚类产生

按时效分类

从数据时效上，可分为离线画像和实时画像。离线与实时采用的构建思想相同，不同之处在于：

-离线画像：描述用户长期的习惯；

-实时画像：描述用户当下的兴趣，会随时间的改变而发生变更；

总结

各大公司的标签分类不同，现市面上有三种常用的标签分类方式，按用途分类，可分为基础信息、用户行为、业务偏好、场景标签；按统计方式分类，可分为事实类标签、规则类标签、预测类标签；按时效分类，可分为静态标签、动态标签。

原文标题：干货：阿里/网易/汽车之家画像标签体系

文章出处：【微信公众号：数据分析与开发】欢迎添加关注！文章转载请注明出处。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
6852

浏览量
88769
机器学习

机器学习

+关注

关注
66

文章
8367

浏览量
132359

原文标题：干货：阿里/网易/汽车之家画像标签体系

文章出处：【微信号：DBDevs，微信公众号：数据分析与开发】欢迎添加关注！文章转载请注明出处。

IP风险画像详细接入规范、API参数（Ipdatacloud）

IP数据云的IP风险画像是基于数据分析和机器学习技术的产品。工作原理是对IP地址的多维度数据进行综合分析，进而为企业提供全面的IP风险评估和

发表于 11-15 11:11 •76次阅读

IP风险<b class='flag-5'>画像</b>详细接入规范、API参数（Ipdatacloud）

华为云全域 Serverless 8 月更新盘点

【摘要】近年来，华为云持续构筑全域 Serverless 云服务，推出了一系列竞争力领先的 Serverless 产品，包括函数工作流 FunctionGraph、Serverless 容器引擎

发表于 09-27 00:06 •564次阅读

华为云<b class='flag-5'>全域</b> Serverless 8 月更新盘点

软通动力数据库全栈服务，助力企业数据库体系全面升级

。在企业节与"数博会"展区，软通动力受邀分享数据库专业服务全栈解决方案，并重点展示以全栈云服务为核心的数智化能力。软通动力高级数据库服务专

发表于 09-05 15:30 •281次阅读

软通动力<b class='flag-5'>数据</b>库全栈<b class='flag-5'>服务</b>，助力企业<b class='flag-5'>数据</b>库<b class='flag-5'>体系</b>全面升级

IP风险画像如何维护网络安全

的重要工具。什么是IP风险画像？ IP风险画像是一种基于大数据分析和机器学习技术的网络安全管理工具。它通过对IP地址的网络行为、流量特征、历史记录等多维度数据进行深入分析，构建出每个

发表于 09-04 14:43 •247次阅读

服务提供商数据在精确定位中的应用

我们在网络连接和数据传输时通过利用ISP提供的数据，可以实现对用户和设备的精确定位。接下来我将就ISP数据在精确定位中的应用进行阐述。 ISP数据

发表于 07-18 11:18 •304次阅读

元服务体验-服务发现

：用户在 HarmonyOS Connect标签的支持下，用户也可以通过碰一碰、靠近或扫一扫该标签，发现并使用元服务。本材料整理来源于HarmonyOS NEXT Developer Beta1

发表于 07-15 17:02

云安全服务体系由哪五部分组成

云安全服务体系是一个复杂的系统，它包括多个组成部分，以确保云环境中的数据和应用程序的安全。以下是云安全服务体系的五个主要部分：云安全策略和合规性云安全策略是确保云环境安全的基石。这包括定义安全

发表于 07-02 09:24 •420次阅读

工业互联网三大体系是什么？

、工业产品和工业服务，形成了全面覆盖生产和管理各环节的智能化“血液循环系统”。 2. 平台体系：平台体系是工业互联网的核心，它主要负责数据的集成、管理和分析。通过平台

发表于 05-25 14:03 •988次阅读

海辰储能荣获NECAS、CTEAS售后服务体系双项权威认证

近日，凭借完善、专业的售后服务体系，经过严格审核，海辰储能顺利通过NECAS、CTEAS双体系权威认证，荣获“NECAS全国商品售后服务达标认证五星级”和“CTEAS售后服务体系完善程

发表于 02-29 11:10 •2105次阅读

PLC通过智能网关，与OPCUA服务端通讯，实现标签数据读写

标签后，点右上角的‘添加到数据表’，如下图：智能网关IGT-DSER还支持将OPCUA服务端的数据发送到到西门子的S7-1200/1500、三菱Q/L系列、R系列、FX5系列，以及M

发表于 01-02 16:41

凯米斯科技提供高效优质的运维服务

、标准化管理和强大的技术支持等方面，这些特点使得凯米斯能够为客户提供快速高效优质的运维服务。凯米斯运维管养服务六大体系保障数据监测质量1.人

发表于 12-27 08:12 •405次阅读

水下PNT体系信息架构及关键问题

-8]。因此，构建水下PNT体系，为水下载体提供全时全域、实用有效、安全可靠的PNT信息服务, 满足不断增长的国家安全、经济、民用、科研和商业的需要[9-12],就显得尤为迫切。

发表于 12-10 09:52 •1212次阅读

基于客户感知识别的管理体系创新

完善客户感知画像，识别管理“中枢神经”。结合客户历史投诉点位，利用网络面数据、客户面数据，运用神经网络算法，将客户感知、投诉和现网的KPI/KQI建立联系，形成客户感知画像

发表于 12-08 16:36 •541次阅读

zookeeper主要提供什么服务

Zookeeper是开源的一种分布式协调服务，它为分布式系统提供一致性、可靠性、高性能的分布式协调服务，主要用于解决分布式系统中的数据一致性问题。Zookeeper可以被看作是一个分布

发表于 12-04 10:34 •921次阅读

RFID电子标签大概多少钱如何挑选RFID标签

RFID电子标签是一种利用射频技术进行自动识别的电子标签，它通过无线电波通信，实现快速、远距离、非接触式的自动识别和数据交换。RFID标签通常由电子芯片和天线组成，天线在

发表于 11-28 16:28 •2084次阅读