0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种基于智慧运营平台,将大数据技术和数据挖掘技术相结合

资治通信 来源:未知 作者:李倩 2018-11-15 14:22 次阅读

【摘要】  为减少用户流失,提高用户保有率,文章介绍一种基于智慧运营平台,将大数据技术和数据挖掘技术相结合,对电信客户流失进行预测的模型。该模型利用大数据技术处理用户离网前的海量数据信息,分析流失用户特征,建立用户流失预测,提前锁定流失风险较高的用户,有针对性地制定维挽策略,精准开展维系挽留活动,能够有效降低用户离网率。

引言

随着移动通信成本逐步下降,移动用户渗透率超过100%,新增市场趋于饱和,面对新增市场的激烈竞争,存量用户的保有显得越来越重要。一项调查数据表明,争取1位新客户的成本是保住1位老客户的5倍。面对新的竞争形势,运营商需要从传统只重视增量发展模式向“增存并重”发展模式转变。如何最大限度地降低客户的流失并挽留客户,成为决策者关注的话题

客户流失给运营商带来了巨大损失,成功挽留一个即将流失的客户比重新发展一个客户节约大量成本。减少客户流失的关键是提前预测潜在的流失客户,采取相关措施提高客户的满意度,实现该预测的关键是数据挖 掘[1]和大数据技术。基于大数据技术的数据挖掘就是从海量的客户资料、使用行为、消费行为、上网轨迹等信息中提取有用的信息进行组合关联,准确判断客户流失的现状或倾向,可以让企业及时并有针对性的对客户进行挽留[2];因此,利用大数据技术进行数据挖掘,预测客户流失、减少客户流失的发生成为电信行业研究的重点。

1国内外研究现状

在数据挖掘方面,国外有很多案例和做法值得学习,比如:文献[3]中运用决策树、Logistic回归、 人工神经网络算法建立了移动用户流失预测模型。 Lightbridge[4]公司运用CART算法分析了新英格兰的一 家移动服务商的数据并建立了客户流失模型AT&T 公司很早就开始在大数据上的探索[5],2009年开始与 Teradata公司合作引进天睿公司的大数据解决方案。

在过去的几十年中,中国企业都扮演着技术跟随者的角色,现阶段我国互联网企业在数据挖掘、大数据处理以及人工智能云计算等领域都有了巨大的发展。 比如文献[6]中使用K-means聚类算法对电信客户进行细分,在此基础上探索了客户细分在营销中的实际应用。 文献[7]中利用神经网络算法建立用户流失预测模型,分析用户流失特征。文献[8]中利用Spark平台实现了多种神经网络算法,对用户流失问题提出了快速精确的模型。国内的电信企业虽然都建立了客户流失预测、客户 分群等模型,但大多都是基于数据挖掘软件如SPSS、SAS等应用,使用的数据量有限,不能全面分析用户流失行为。

2大数据平台及技术

安徽联通构建基于B域、O域和M域数据融合的大数据平台——智慧运营平台,实现数字化转型及全业务流程的智慧运营。智慧运营平台通过企业级大数据平台 实现企业全量数据的接入及治理,当前包括Hadoop、 Universe、实时流处理三大资源池,共计140多个节 点,存储容量3PB、2200核CPU、8T内存计算资源,实现资源动态管理;流处理平台具备百万级别消息并发 处理能力,支持1分钟级别提供用户位置能力(见图1)。

智慧运营平台接入BSS、CBSS、OSS、SEQ、上 网等全网多种数据源,利用BDI(Big Data Integration, 数据集成套件)和Flume进行离线数据及日志数据的抽取、转换、加载等数据采集功能,实现高性能海量数 据处理和存储。利用Hadoop、Universe、实时流处理三大资源池,有效支撑上层各种应用的开发和运行。利用基于大数据分析平台构建的新一代智能数据挖掘系统 SmartMiner进行自动化数据挖掘,实现各种算法模型的训练和预测。借助智慧运营平台强大的大数据分析和处理能力,结合现网客户运营的经验,建立有效的用户流失预测模型,实现用户的流失预警、维系策略匹配、客户反馈优化等一整套流程,能够有效降低用户流失。

3离网预测模型构建

3.1离网预测原理

离网预测模型[9]主要是根据历史数据特征,通过数据挖掘算法,建立预测模型,并将模型应用于现网用户,预测出离网概率高的用户。其主要包括数据准备、 模型训练和验证、离网预测三大部分[10]。如图2所示,数据准备阶段,根据出账和充值规律定义离网规则,通过对电信业务和用户行为的理解,从运营商各域数据里提取数据,并筛选离网预测特征字段,构建离网预测特征库。模型训练和验证阶段,选取数据挖掘算法,进行模型训练、评估和调优,训练出最佳模型。离网预测阶段,将训练的最佳模型应用于现网数据,实现准确的流失预测。进一步通过有效的维系手段,对预测流失用户进行精准维系,减少用户离网,提升在网用户价值。

3.2随机森林算法

传统数据挖掘中进行流失预测多采用决策树算法[11],它的特点有训练时间复杂度低、预测的过程比较快、模型容易展示等。但是单决策树容易过拟合,虽然可以通过剪 枝等方法减少这种情况的发生,但仍有不足。2001年Leo Breiman在决策树的基础上提出了随机森林算法[12]。

随机森林是由多个决策树构成的森林,算法分类结果由这些决策树投票得到,决策树在生成过程中分别在行方向和列方向上添加随机过程,行方向上构建决策树 时采用有放回抽样(bootstrapping)得到训练数据,列方向上采用无放回随机抽样得到特征子集,并据此得到其 最优切分点。从图3中可以看到,通过K次训练,得到K棵不同的决策树{T1,T2,…,TK},再将这些树组合成一个分类模型系统,随机森林是一个组合模型,内部仍然是基于决策树,同单一的决策树分类不同的是,随机森林通过多个决策树投票结果进行分类,算法不容易出现过度拟合问题。

3.3 数据准备

3.3.1 离网定义及数据需求

为了进一步提前锁定离网倾向用户,经过历史数据的比对,结合用户使用行为的分析,决定将过缴费期10天未缴费的用户定义为流失用户。根据传统数据挖掘实现的离网预测案例的经验,考虑到大数据系统的处理能力,通过对连续3个月内离网的用户进行离网打标,增加离网用户的样本量,提高离网预测的准确率;通过对目标用户中隔月后离网的用户进行打标,预留1个月的 预测结果干预期,进行维系挽留。如图4所示,采用连续7个月的历史数据,对第N-6月的数据进行隔月后的连 续3个月(N-4月、N-3月、N-2月)离网用户打标,取N-6 月、N-5月、N-4月连续3个月的正负样本并集,解决了传统打标负样本量不足和维系干预期太短等问题。

3.3.2数据特征提取

根据业务经验,选取与用户流失可能存在相关性的所有属性,进行数据审查,筛选存在相关性较大的特 征属性。本次建模数据特征主要采用B域用户通信及消 费行为等基本属性、衍生属性(汇总、比例、趋势和波动)、挖掘属性等,增加O域样本数据,如上网行为、 终端属性指标(换机、应用偏好、掉话率、上网协议响 应成功率等)。如表1所示,数据维度包括基础信息维度、通信行为信息、账务信息、消费行为变化维度、交往圈信息、呼叫异网维度、投诉维度、通信行为维度及上网轨迹、掉话率等。根据这些维度数据合并汇总成数据挖掘特征宽表,用于模型训练和验证。

3.4建立模型

流失客户预测模型的建立,具体包括原始数据处理、特征宽表构建、模型训练、模型评估和模型调优五个部分。如图5所示,智慧运营平台通过连接全网数 据的接口,获取建模所需的BSS系统(业务支持系统)数 据和OSS系统(运营支持系统)数据。BSS系统是运营商 向用户开展业务的主要IT组成部分,OSS系统是电信服务提供商用来管理通信网络的主要系统。BSS数据包括 CRM(客户关系)、Billing(账单数据)、详单数据及投诉数据,OSS数据包括分组交换数据(Package Switch, PS)、测量报告数据(Measurement Report,MR)和电路交换数据(Circuit Switch,CS)。其中PS数据描述了用户连接网络的情况,如上网速度、掉线率和移动搜索文本 信息;MR数据可以用来给用户定位,获取用户运动轨迹;CS数据描述的是用户的通话质量,如掉话率等。

我们将获取的原始数据存储到Hadoop分布式文 件系统中(HDFS),然后再利用Hive进行特征生成和处理工作。HDFS可以处理PB级别的超大文件,Hive可 以提供简单的SQL查询功能,并能将SQL语句转化为 MapReduce任务分布式运行。

特征宽表生成后,我们利用Spark的高效计算能 力,在SmartMiner中选取随机森林算法进行流失预测模型的训练,经过训练结果的多次验证和评估,我们将 随机森林设置为200颗树,SQR采样方法,树的最大深 度为15层,叶子最小样本数100个,最大分箱数32,进行模型建立。将分类器训练出来的模型应用到现网数据,可以预测未来3个月有离网倾向的用户,按照离网倾向的高低排名,锁定维系挽留的目标客户。

3.5模型评估

训练模型的好坏可以通过对历史流失数据的检验来验证,模型评估参数一般包括准确率和覆盖率,准确率越高、覆盖率越大,模型效果越好,其中:准确率=预测流失准确的客户数 / 预测为流失的客户数;覆盖率=预测流失准确的客户数 / 实际流失的客户数。

如图6所示,我们根据建模训练数据的规则,可以在第N月预测第N+2月、N+3月、N+4月的流失用户, 第N+1月为我们的维系窗口期。

我们选取2016年1~6月数据进行训练,对7~10月数据进行模型预测,如图7所示,经过2016年9月至 2017年2月数据的验证,可以得到7~10月的预测数据 TOP50000中查准率基本在80%,查全率40%。

4离网根因分析

通过对离网用户的特征属性进行聚类分析,离网用户大致原因可以分为:资费原因、合约感知原因、社会交往影响原因、终端换机原因、地域变更原因、服务质量原因、通信质量原因、弃卡原因、新入网质量原因及其他原因等。如表2所示,提取2016年11月数据预测2017年1~3月离网概率top400000用户,对其离网情况进行验证,其准确率达到52%以上。

5应用

5.1策略匹配

通过对流失用户的根因分析,结合现有维系业务,将预测的离网用户,根据业务特征进行分类,匹配相应策略指导市分VIP维系客户经理进行外呼维系。如表3所示,将离网倾向较高的用户分为话务异常、业务异常和服务异常三类,针对话务异常用户,重点进行优惠活动介绍,增加用户黏性;对于业务异常用户,推荐合约 续约及更换SIM卡;对于服务异常用户,进行及时安抚并给予一定赠送。

5.2维系效果

针对三星级以上用户,我们利用在网维系系统进行了针对性的维系挽留。从2017年1月开始,我们将大数据系统预测出的离网倾向较高的高价值用户通过在网维系系统下发到市分VIP客户经理处,根据匹配的策略进行精准维系。如图8所示,2015年9月至12月,高价值 用户准离网率平均值为2.04%,全网准离网率为3.6%。 模型应用后,高价值离网率从2017年2月开始持续降低,如图9所示,截至2017年7月下降到1.35%,平均准离网率为1.49%,相比应用前的2.04%下降了0.55%, 每月多挽留客户8230户,高价值户均ARPU按90元计算,月均减少损失74万元,年减少损失888万元。

6总结

本文阐述了利用智慧运营大数据平台,对流失客户的特征进行的分析和研究,利用SmartMiner分析系统选取随机森林算法,建立客户流失预测模型,通过多次的训练和优化,逐步提高流失预测模型的准确性。通过对离网用户的根因分析,制定相应维系策略,匹配到相应的离网倾向用户,在全网进行了系统化的精准维系,有效提升了用户保有率。下一步将结合维系效果,继续优化模型参数,完善训练模型,进一步提升流失预测的准确率和覆盖率,继续研究用户流失根因,根据离网根因匹配维系策略,进一步降低用户流失,增强用户黏性,提升客户价值。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数字化
    +关注

    关注

    8

    文章

    8708

    浏览量

    61726
  • 数据挖掘
    +关注

    关注

    1

    文章

    406

    浏览量

    24230
  • 大数据
    +关注

    关注

    64

    文章

    8882

    浏览量

    137394

原文标题:【集客经营】基于大数据技术的电信客户流失预测模型 研究及应用

文章出处:【微信号:xiacoinfo,微信公众号:资治通信】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    探寻大数据时代的商业变革

    优秀企业的推动,亦需要优质的机构提供交流平台。广州多元大数据技术有限公司提倡“数据重构产业”,利用先进的大数据
    发表于 05-27 17:11

    大数据运用的技术

    处理、集群、实时性计算等,汇集了当前IT领域热门流行的IT技术。想要学好大数据需掌握以下技术:1. Java编程技术Java编程技术
    发表于 04-08 16:50

    大数据开发核心技术详解

    数据的核心是云技术和BI。关于大数据和云计算的关系人们通常会有误解,而且也会把它们混起来说,分别做句话直白解释就是:云计算就是硬件资源的虚拟化;
    发表于 07-26 16:26

    智慧政务大数据平台解决方案之架构介绍

    ***出台了城市大数据发展计划。政务大数据处理平台款汇集大数据处理、在线分析、数据
    发表于 10-23 15:52

    NLPIR大数据KGB知识图谱引擎智能挖掘各行数据

    ,因此大数据处理和挖掘技术就此出现。  大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这
    发表于 11-02 14:08

    大数据平台开发公司有哪些?

    听到大快搜索的名字脑海里的第反应是莫非又是个像百度样做搜索引擎的公司。完全不是哦,这是个开放的搜索和大数据
    发表于 11-15 15:17

    大数据分析技术在新型智慧能源建设中的应用

    `智慧概念已经提出很多年,这是一种全新的能源形式,包括符合生态文明和可持续发展要求的相关能源技术和能源制度体能源这系。智慧能源是以互联网
    发表于 11-21 14:28

    NLPIR系统KGB知识图谱技术助力大数据深度挖掘

    大数据技术不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作
    发表于 12-05 11:49

    NLPIR-Parser大数据技术实现深度文本语义理解

    应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互
    发表于 12-18 11:58

    智慧公安平台应用系统制作,公安大数据可视化平台开发

    迎合“大数据”和“智能机器”时代的到来,“智慧***”、“智慧城市”已经在国内被提上日程,并在部分先进地区已经开始应用,“智慧公安”也开始初见倪端,并在部分地区被提上日程。 公安
    发表于 12-25 18:02

    NLPIR智能技术推动NLP语义挖掘快速发展

    产业产生重要影响,还将催生体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据引发数据快速处理分析、
    发表于 03-14 11:50

    大数据技术与应用是学什么的?

    大数据技术与应用是学什么的?大数据是指无法在定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
    发表于 07-27 07:47

    如何嵌入式软件和硬件相结合

    开始。其中物联网软硬件是很关键的环,如何软件和硬件相结合,嵌入式软件系统和硬件系统就需要先了解下。、嵌入式硬件系统大多数嵌入式系统的
    发表于 12-22 06:54

    大数据技术种类分析

    大数据技术指的是是一种结合数据挖掘数据存储、
    的头像 发表于 03-29 10:59 1106次阅读

    每日课 | 智慧灯杆之大数据分析及挖掘技术

    4.大数据分析及挖掘技术大数据分析技术改进已有数据挖掘
    的头像 发表于 04-06 14:24 649次阅读
    每日<b class='flag-5'>一</b>课 | <b class='flag-5'>智慧</b>灯杆之<b class='flag-5'>大数据</b>分析及<b class='flag-5'>挖掘</b><b class='flag-5'>技术</b>