大数据简介
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
大数据特征
容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;
种类(Variety):数据类型的多样性;
速度(Velocity):指获得数据的速度;
可变性(Variability):妨碍了处理和有效地管理数据的过程。
真实性(Veracity):数据的质量
复杂性(Complexity):数据量巨大,来源多渠道
价值(value):合理运用大数据,以低成本创造高价值
数据挖掘技术分类及应用
数据挖掘技术概况
基于Internet的全球信息系统的发展使我们拥有了前所未有的丰富数据。大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。数据丰富、知识贫乏已经成为一个典型问题。Data Mining(数据挖掘)的目的就是有效地从海量数据中提取出需要的答案,实现“数据-〉信息-〉知识-〉价值”的转变过程。
(数据挖掘)是指用非平凡的方法从海量的数据中抽取出潜在的、有价值的知识(模型或规则)的过程。该术语还有其他一些同义词:数据库中的知识发现 、信息抽取 、信息发现 、智能数据分析 、探索式数据分析( 、信息收获 、数据考古 等。
Data Mining(数据挖掘)是数据库研究、开发和应用最活跃的一个分支,是多学科的交叉领域,它涉及数据库技术、人工智能、机器学习、神经网络、数学、统计学、模式识别、知识库系统、知识获取、信息提取、高性能计算、并行计算、数据可视化等多方面知识。
数据挖掘技术从一开始就是面向应用的,它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。例如加拿大BC省电话公司要求加拿大SimonFraser大学KDD研究组,根据其拥有十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定既有利于公司又有利于客户的优惠政策。这样一来,就把人们对数据的应用,从低层次的末端查询操作,提高到为各级经营决策者提供决策支持。这种需求驱动力,比数据库查询更为强大。同时,这里所说的数据挖掘,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。所有发现的知识都是相对的,是有特定前提和约束条件、面向特定领域的,同时还要能够易于被用户理解,最好能用自然语言表达发现结果。因此数据挖掘的研究成果是很讲求实际的。
数据挖掘技术应用
数据挖掘技术可以为决策、过程控制、信息管理和查询处理等任务提供服务,一个有趣的应用范例是“尿布与啤酒”的故事。为了分析哪些商品顾客最有可能一起购买,一家名叫 WalMart的公司利用自动数据挖掘工具,对数据库中的大量数据进行分析后,意外发现,跟尿布一起购买最多的商品竟是啤酒。为什么两件风马牛不相及的商品会被人一起购买?原来,太太们常叮嘱她们的丈夫,下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了两瓶啤酒。既然尿布与啤酒一起购买的机会最多,商店就将它们摆放在一起,结果,尿布与啤酒的销售量双双增长。这里,数字挖掘技术功不可没。一般来说,数据挖掘的应用有电信:流失;银行:聚类(细分),交叉销售;百货公司/超市:购物篮分析(关联规则);保险:细分,交叉销售,流失(原因分析);信用卡: 欺诈探测,细分;电子商务:网站日志分析;税务部门:偷漏税行为探测;警察机关:犯罪行为分析;医学:医疗保健。具体如下:
电子政务的数据挖掘
建立电子化政府,推动电子政务的发展,是电子信息技术应用到政府管理的必然趋势。实践经验表明,政府部门的决策越来越依赖于对数据的科学分析。发展电子政务,建立决策支持系统,利用电子政务综合数据库中存储的大量数据,通过建立正确的决策体系和决策支持模型,可以为各级政府的决策提供科学的依据,从而提高各项政策制定的科学性和合理性,以达到提高政府办公效率、促进经济发展的目的。为此,在政府决策支持方面,需要不断
吸纳新的信息处理技术,而数据挖掘正是实现政府决策支持的核心技术。以数据挖掘为依托的政府决策支持系统,将发挥重要的作用。
电子政务位于世界各国积极倡导的“信息高速公路”五个领域(电子政务、电子商务、远程教育、远程医疗、电子娱乐)之首,说明政府信息化是社会信息化的基础。电子政务包括政府的信息服务、电子贸易、电子化政府、政府部门重构、群众参与政府五个方面的内容。将网络数据挖掘技术引入电子政务中,可以大大提高政府信息化水平,促进整个社会的信息化。具体体现在以下几个方面:
1)政府的电子贸易 在服务器以及浏览器端日志记录的数据中隐藏着模式信息,运用网络用法挖掘技术可以自动发现系统的访问模式和用户的行为模式,从而进行预测分析。例如,通过评价用户对某一信息资源浏览所花费的时间,可以判断出用户对何种资源感兴趣;对日志文件所收集到的域名数据,根据国家或类型进行分类分析;应用聚类分析来识别用户的访问动机和访问趋势等。这项技术已经有效地运用在政府电子贸易中。
2)网站设计 通过对网站内容的挖掘,主要是对文本内容的挖掘,可以有效地组织网站信息,如采用自动归类技术实现网站信息的层次性组织;同时可以结合对用户访问日志记录信息的挖掘,把握用户的兴趣,从而有助于开展网站信息推送服务以及个人信息的定制服务,吸引更多的用户。
3)搜索引擎 网络数据挖掘是目前网络信息检索发展的一个关键。如通过对网页内容挖掘,可以实现对网页的聚类、分类,实现网络信息的分类浏览与检索;同时,通过对用户所使用的提问式的历史记录的分析,可以有效地进行提问扩展,提高用户的检索效果;另外,运用网络内容挖掘技术改进关键词加权算法,提高网络信息的标引准确度,从而改善检索效果。
4)决策支持 为政府重大政策出台提供决策支持。如,通过对网络各种经济资源的挖掘,确定未来经济的走势,从而制定出相应的宏观经济调控政策。
市场营销的数据挖掘
数据挖掘技术在企业市场营销中得到了比较普遍的应用,它是以市场营销学的市场细分原理为基础,其基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。
通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定内容的定向营销,这与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。
商业消费信息来自市场中的各种渠道。例如,每当我们用信用卡消费时,商业企业就可以在信用卡结算过程收集商业消费信息,记录下我们进行消费的时间、地点、感兴趣的商品或服务、愿意接收的价格水平和支付能力等数据;当我们在申办信用卡、办理汽车驾驶执照、填写商品保修单等其他需要填写表格的场合时,我们的个人信息就存入了相应的业务数据库;企业除了自行收集相关业务信息之外,甚至可以从其他公司或机构购买此类信息为自己所用。
这些来自各种渠道的数据信息被组合,应用超级计算机、并行处理、神经元网络、模型化算法和其他信息处理技术手段进行处理,从中得到商家用于向特定消费群体或个体进行定向营销的决策信息。这种数据信息是如何应用的呢?举一个简单的例子,当银行通过对业务数据进行挖掘后,发现一个银行帐户持有者突然要求申请双人联合帐户时,并且确认该消费者是第一次申请联合帐户,银行会推断该用户可能要结婚了,它就会向该用户定向推销用于购买房屋、支付子女学费等长期投资业务,银行甚至可能将该信息卖给专营婚庆商品和服务的公司。数据挖掘构筑竞争优势。
在市场经济比较发达的国家和地区,许多公司都开始在原有信息系统的基础上通过数据挖掘对业务信息进行深加工,以构筑自己的竞争优势,扩大自己的营业额。美国运通公司(American Express)有一个用于记录信用卡业务的数据库,数据量达到54亿字符,并仍在随着业务进展不断更新。运通公司通过对这些数据进行挖掘,制定了“关联结算(Relation ship Billing)优惠”的促销策略,即如果一个顾客在一个商店用运通卡购买一套时装,那么在同一个商店再买一双鞋,就可以得到比较大的折扣,这样既可以增加商店的销售量,也可以增加运通卡在该商店的使用率。再如,居住在伦敦的持卡消费者如果最近刚刚乘英国航空公司的航班去过巴黎,那么他可能会得到一个周末前往纽约的机票打折优惠卡。
基于数据挖掘的营销,常常可以向消费者发出与其以前的消费行为相关的推销材料。卡夫(Kraft)食品公司建立了一个拥有3000万客户资料的数据库,数据库是通过收集对公司发出的优惠券等其他促销手段作出积极反应的客户和销售记录而建立起来的,卡夫公司通过数据挖掘了解特定客户的兴趣和口味,并以此为基础向他们发送特定产品的优惠券,并为他们推荐符合客户口味和健康状况的卡夫产品食谱。美国的读者文摘(Reader‘s Digest)出版公司运行着一个积累了40年的业务数据库,其中容纳有遍布全球的一亿多个订户的资料,数据库每天24小时连续运行,保证数据不断得到实时的更新,正是基于对客户资料数据库进行数据挖掘的优势,使读者文摘出版公司能够从通俗杂志扩展到专业杂志、书刊和声像制品的出版和发行业务,极大地扩展了自己的业务。
基于数据挖掘的营销对我国当前的市场竞争中也很具有启发意义,我们经常可以看到繁华商业街上一些厂商对来往行人不分对象地散发大量商品宣传广告,其结果是不需要的人随手丢弃资料,而需要的人并不一定能够得到。如果搞家电维修服务的公司向在商店中刚刚购买家电的消费者邮寄维修服务广告,卖特效药品的厂商向医院特定门诊就医的病人邮寄广告,肯定会比漫无目的的营销效果要好得多。
零售业中的数据挖掘
通过条形码、编码系统、销售管理系统、客户资料管理及其它业务数据中,可以收集到关于商品销售、客户信息、货存单位及店铺信息等的信息资料。数据从各种应用系统中采集,经条件分类,放到数据仓库里,允许高级管理人员、分析人员、采购人员、市场人员和广告客户访问,利用DM工具对这些数据进行分析,为他们提供高效的科学决策工具。如对商品进行购物篮分析,分析那些商品顾客最有希望一起购买。如被业界和商界传诵的经典----Wal-Mart的 “啤酒和尿布”,就是数据挖掘透过数据找出人与物间规律的典型。在零售业应用领域,利用DW、DM会在很多方面有卓越表现:
1. 了解销售全局:通过分类信息——按商品种类、销售数量、商店地点、价格和日期等了解每天的运营和财政情况,对销售的每一点增长、库存的变化以及通过促销而提高的销售额都可了如指掌。零售商店在销售商品时,随时检查商品结构是否合理十分重要,如每类商品的经营比例是否大体相当。调整商品结构时需考虑季节变化导致的需求变化、同行竞争对手的商品结构调整等因素。
2. 商品分组布局:分析顾客的购买习惯,考虑购买者在商店里所穿行的路线、购买时间和地点、掌握不同商品一起购买的概率;通过对商品销售品种的活跃性分析和关联性分析,用主成分分析方法,建立商品设置的最佳结构和商品的最佳布局。
3. 降低库存成本:通过数据挖掘系统,将销售数据和库存数据集中起来,通过数据分析,以决定对各个商品各色货物进行增减,确保正确的库存。数据仓库系统还可以将库存信息和商品销售预测信息,通过电子数据交换(EDI)直接送到供应商那里,这样省去商业中介,而且由供应商负责定期补充库存,零售商可减少自身负担。
4. 市场和趋势分析:利用数据挖掘工具和统计模型对数据仓库的数据仔细研究,以分析顾客的购买习惯、广告成功率和其它战略性信息。利用数据仓库通过检索数据库中近年来的销售数据,作分析和数据挖掘,可预测出季节性、月销售量,对商品品种和库存的趋势进行分析。还可确定降价商品,并对数量和运作作出决策。
有效的商品促销:可以通过对一种厂家商品在各连锁店的市场共享分析,客户统计以及历史状况的分析,来确定销售和广告业务的有效性。通过对顾客购买偏好的分析,确定商品促销的目标客户,以此来设计各种商品促销的方案,并通过商品购买关联分析的结果,采用交叉销售和向上销售的方法,挖掘客户的购买力,实现准确的商品促销。
银行业的数据挖掘
金融事务需要搜集和处理大量的数据,由于银行在金融领域的地位、工作性质、业务特点以及激烈的市场竞争决定了它对信息化、电子化比其它领域有更迫切的要求。利用数据挖掘技术可以帮助银行产品开发部门描述客户以往的需求趋势,并预测未来。美国商业银行是发达国家商业银行的典范,许多地方值得我国学习和借鉴。
数据挖掘技术在美国银行金融领域应用广泛。金融事务需要搜集和处理大量数据,对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。商业银行业务的利润和风险是共存的。为了保证最大的利润和最小的风险,必须对帐户进行科学的分析和归类,并进行信用评估。Mellon银行使用数据挖掘软件提高销售和定价金融产品的精确度,如家庭普通贷款。零售信贷客户主要有两类,一类很少使用信贷限额(低循环者),另一类能够保持较高的未清余额(高循环者)。每一类都代表着销售的挑战。低循环者代表缺省和支出注销费用的危险性较低,但会带来极少的净收入或负收入,因为他们的服务费用几乎与高循环者的相同。银行常常为他们提供项目,鼓励他们更多地使用信贷限额或找到交叉销售高利润产品的机会。高循环者由高和中等危险元件构成。高危险分段具有支付缺省和注销费用的潜力。对于中等危险分段,销售项目的重点是留住可获利的客户并争取能带来相同利润的新客户。但根据新观点,用户的行为会随时间而变化。分析客户整个生命周期的费用和收入就可以看出谁是最具创利潜能的。
Mellon银行认为“根据市场的某一部分进行定制”能够发现最终用户并将市场定位于这些用户。但是,要这么做就必须了解关于最终用户特点的信息。数据挖掘工具为Mellon银行提供了获取此类信息的途径。Mellon银行销售部在先期数据挖掘项目上使用Intelligence Agent寻找信息,主要目的是确定现有Mellon用户购买特定附加产品:家庭普通信贷限额的倾向,利用该工具可生成用于检测的模型。据银行官员称:数据挖掘可帮助用户增强其商业智能,如交往、分类或回归分析,依赖这些能力,可对那些有较高倾向购买银行产品、服务产品和服务的客户进行有目的的推销。该官员认为,该软件可反馈用于分析和决策的高质量信息,然后将信息输入产品的算法。数据挖掘还有可定制能力。
美国Firstar银行使用数据挖掘工具,根据客户的消费模式预测何时为客户提供何种产品。Firstar银行市场调查和数据库营销部经理发现:公共数据库中存储着关于每位消费者的大量信息,关键是要透彻分析消费者投入到新产品中的原因,在数据库中找到一种模式,从而能够为每种新产品找到最合适的消费者。数据挖掘系统能读取800到1000个变量并且给它们赋值,根据消费者是否有家庭财产贷款、赊帐卡、存款证或其它储蓄、投资产品,将它们分成若干组,然后使用数据挖掘工具预测何时向每位消费者提供哪种产品。预测准客户的需要是美国商业银行的竞争优势。
证券业的数据挖掘
其典型应用包括有:
1、客户分析
建立数据仓库来存放对全体客户、预定义客户群、某个客户的信息和交易数据,并通过对这些数据进行挖掘和关联分析,实现面向主题的信息抽取。对客户的需求模式和盈利价值进行分类,找出最有价值和盈利潜力的客户群,以及他们最需要的服务,更好地配置资源,改进服务,牢牢抓住最有价值的客户。
通过对客户资源信息进行多角度挖掘,了解客户各项指标(如资产贡献、忠诚度、盈利率、持仓比率等),掌握客户投诉、客户流失等信息,从而在客户离开券商之前,捕获信息,及时采取措施挽留客户。
2、咨询服务
根据采集行情和交易数据,结合行情分析,预测未来大盘走势,并发现交易情况随着大盘变化的规律,并根据这些规律做出趋势分析,对客户针对性进行咨询。
3、风险防范
通过对资金数据的分析,可以控制营业风险,同时可以改变公司总部原来的资金控制模式,并通过横向比较及时了解资金情况,起到风险预警的作用。
4、经营状况分析
通过数据挖掘,可以及时了解营业状况、资金情况、利润情况、客户群分布等重要的信息。并结合大盘走势,提供不同行情条件下的最大收益经营方式。同时,通过对各营业部经营情况的横向比较,以及对本营业部历史数据的纵向比较,对营业部的经营状况作出分析,提出经营建议。
电信业的数据挖掘
电信业已经迅速地从单纯的提供市话和长话服务演变为综合电信服务,如语音、传真、寻呼、移动电话、图像、电子邮件、计算机和WEB数据传输以及其他的数据通信服务。电信、计算机网络、因特网和各种其他方式的的通信和计算的融合是目前的大势所趋。而且随着许多国家对电信业的开放和新兴计算与通信技术的发展,电信市场正在迅速扩张并越发竞争激烈。因此,利用数据挖掘技术来帮助理解商业行为、确定电信模式、捕捉盗用行为、更好地利用资源和提高服务质量是非常有必要的。分析人员可以对呼叫源、呼叫目标、呼叫量和每天使用模式等信息进行分析还可以通过挖掘进行盗用模式分析和异常模式识别,从而可尽早的发现盗用,为公司减少损失。
移动通信领域的数据挖掘
针对信息化的应用,移动通信行业信息化进程得到巨大发展和广泛应用,运营网络系统、综合业务系统、计费系统、办公自动化等系统的相继使用,为计算机应用系统的运行积累了大量的历史数据。但在很多情况下,这些海量数据在原有的作业系统中是无法提炼并升华为有用的信息并提供给业务分析人员与管理决策者的。一方面,联机作业系统因为需要保留足够的详细数据以备查询而变得笨重不堪,系统资源的投资跟不上业务扩展的需求;另一方面,管理者和决策者只能根据固定的、定时的报表系统获得有限的经营与业务信息,无法适应激烈的市场竞争。
随着我国政府对电信行业经营的进一步放开和政策约束的调整以及客户对电信服务质量要求的提高、盗打、欺诈因素的增加等等,移动通信的经营面临更加复杂的局面,营运成本大幅度增加。因此,如何在激烈的市场竞争条件下,在满足客户需求和优质服务的前提下充分利用现有设备降低成本、提高效益,就成为决策者们共同关心的课题。
依照国外电信市场的发展经验和历程,市场竞争中电信公司的成功经营之道是:(1) 以高质量的服务留住现有客户;(2) 提高通话量和设备利用率,用比竞争者更低的成本争取新客户,扩大市场份额;(3)放弃无利润和信用差的客户,降低经营风险和成本。
对于一个相对成熟的移动通信运营商来说,各运营与支撑系统所积累的海量历史数据无疑是一笔宝贵的财富,而数据挖掘正是充分利用这些宝贵资源从而达到上述三重目标的一种最为有效的方法与手段。
体育领域的数据挖掘
1、体质数据分析
目前,我国对健康和增强体质都十分重视,每年都有很多相关的体质测试。这样年复一年地积累了大量数据,而对这些数据的分析采用的几乎都是统计方法,包括很多单位的体育分析和评价软件,主要是对体质数据的均值分析以及套用规定的评价公式进行评价和分析。显然,它们对体育中的体质数据分析有一定的贡献,但其作用也只能局限于数据本身的大小比较,且产生的结果通常只能由专业人员能够理解,另外只采用统计的方法挖掘数据之间的联系也十分有限。
利用数据挖掘对体质数据进行挖掘,很容易产生统计方法难以实现的结果。例如,根据积累和不断收集的数据,结合体质数据和营养学方面的知识,可以挖掘出造成不同地区体质好或差的营养方面的原因;同样,根据体质数据和医学方面的知识,能够挖掘出人们的健康状况,甚至分析出导致健康状况较低的可能的疾病原因,从而可以更好地为人们自我保健和健身等各方面提供有力的指导;此外,采用数据挖掘对有名运动员的早期体质数据进行分析,能够找出它们的共同特点,从而为体育选材提供有力的依据。体质数据库正如一个宝矿,采用数据挖掘技术,肯定能够挖掘出很多难以想象的宝藏。
2、 体育产业中的应用
数据挖掘最初的应用就是商业领域,而体育产业本身就是一类典型的商业。在一般的商业数据挖掘中,DM技术判断哪些是它们的最有价值客户、重新制定它们的产品推广策略(把产品推广给最需要它们的人),以用最小的花费得到最好的销售。以体育广告为例,可以对国内从事不同体育运动广告业务的数据库进行挖掘,比如,发现了做某类体育广告的单位或公司的特征,那么就可以向那些具有这些特征但还未成为我们的客户的其它公司或单位推销这类体育广告;同样,如果通过挖掘找到流失的客户的共同特征,就可以在那些具有相似特征的客户还未流失之前进行针对性的弥补。这样,可以一定程度地提高体育广告的效益。,因此,及时、有效地利用DM,可以为我国体育产业创造更多的财富。
3、 竞技体育中的应用
竞技体育特别是对抗性质的竞技,通常不但要求运动员实际水平高,同时战术策略也相当重要,有时竞技中的战术甚至起到决定性作用。认识到数据挖掘的功能后,国外已经将其应用于竞技体育中。例如,美国著名的国家篮球队NBA的教练,利用IBM公司提供的数据挖掘工具临场辅助决定替换队员,而且取得了很好的效果。系统分析显示魔术队先发阵容中的两个后卫安佛尼。哈德卫(Anfernee Hardaway)和伯兰。绍(Brian Shaw)在前两场中被评为-17分,这意味着他俩在场上本队输掉的分数比得到的分数多17分。然而,当哈德卫与替补后卫达利尔。阿姆斯创(Darrell Armstrong)组合时,魔术队得分为正14分。在下一场中,魔术队增加了阿姆斯创的上场时间。此着果然见效:阿姆斯创得了21分,哈德卫得了42分,魔术队以88比79获胜。魔术队在第四场让阿姆斯创进入先发阵容,再一次打败了热队。在第五场比赛中,这个靠数据挖掘支持的阵容没能拖住热队,但数据挖掘毕竟帮助了魔术队赢得了打满5场,直到最后才决出胜负的机会。目前,NBA球队中大约20个使用了IBM公司开发的该软件系统来优化他们的战术组合。同样,利用数据挖掘技术也可以分析足球、排球等类似对抗性的竞技运动,从中找出对手的弱点,制定出到更有效的战术。
邮政业的数据挖掘
中国邮政建立了目前国内最大的物流交换体系,同时也积累了大量的用户数据,如何利用这些用户数据,通过数据分析为邮政业务的发展提供科学决策依据,是邮政部门十分关心的问题。数据挖掘技术可以很好地为邮政部门解决上述问题,利用该技术,我们可以进行客户存款余额分析、客户存款结构分析、平均存款利率分析、不同储种余额分析、不同储种客户分析、揽储统计分析、业务量统计分析等等。我们以客户存款分析进行介绍。采用分析的维包括如下: 营业网点的地区:以地区作为分析维度,可以判断出各个储蓄所的工作业绩情况; 客户的年龄:根据客户年龄段对存款余额进行统计,从中可以分析出哪个年龄段的客户是优良客户,哪些客户是未来开发的重点。客户的地址:根据客户所在地区统计存款余额, 可以分析出各地区的经济情况以及人们对邮政储蓄的认识程度,从而为以后的业务拓展提供依据; 存款的用途:居民的储蓄存款用途比较繁杂,但是了解有规律的存款目的一方面可以帮助邮政储蓄及时想客户之所想,拉近与客户之间的距离;另一方面可以为新业务的拓展提供有力的信息;时间段:通过这种分析可以及时掌握客户储蓄的变化规律,从而适当调整邮政业务流程。例如,根据客户存款的变化规律可以预见性的及时调整邮政储蓄的头寸资金,在保证投资最大化的同时,预防金融风险。
呼叫中心的数据挖掘
呼叫中心正在逐渐成为企业进行信息收集的主要渠道。在收集了大量的数据之后,如何将这些数据进行整理、分析,为企业进行科学决策提供支持,也是面临的一个主要问题。数据挖掘技术,能提供一条新的解决出路。
为决策提供依据,将数据挖掘技术引入呼叫中心,具有十分重要的意义。企业运营过程中的各种信息都是通过数据反映出来的,通过对这些数据的分析,可以发现企业运营过程中的规律,从而对企业的生产活动、市场活动等提供科学指导意义。
呼叫中心目前仅解决了企业与外部市场进行信息接入的问题,产生的大量数据通过报表等统计方法,只能得到一般意义上的信息反映。而通过数据挖掘技术,可以发现许多深层的、手工无法发现的规律,帮助企业在激烈的竞争环境中,占有更多的先机。
为用户提供针对性服务,通过数据挖掘技术,可以根据客户的消费行为进行分类,找出该类客户的消费特征,然后通过呼叫中心提供更具个性化的服务,从而改进企业的服务水平,提高企业的社会效益和经济效益。
提高企业的决策科学,目前,企业的决策具有很大的盲目性。如果采用数据挖掘技术,就可以在自己的生产过程中产生的数据基础上,进行科学分析,得出比较科学的预测结果,减少决策失误。通过数据挖掘技术,可以让企业的决策回归到自己的业务中,得出更实际的判断。
增值更容易,数据挖掘在呼叫中心中会有很多种应用,而且有些应用可以帮助简化管理运营,有的则可以提供一些业务关联性的数据,帮助企业呼叫中心更好地开展业务,实现增值。具体说来,增值应用表现在以下方面。分析客户行为,进行交叉销售。在呼叫中心的各种客户中,可以根据其消费的特点,进行相关分析,了解某类客户在购买一种商品时,购买其它种类产品的概率有多大。根据这种相互的关联性,就可以进行交叉销售。分析客户忠诚度,避免客户流失。在客户分析过程中,会有很多重要的大客户流失。采用数据挖掘技术,可以对这些流失的大客户进行分析,找出数据模型,发现其流失的规律,然后有针对性地改进服务质量,避免客户的流失,减少企业的经济损失。
简化管理,呼叫中心的运营管理被人们提到前所未有的高度,因为一个中心即使建得很好,技术也很先进,但如果管理不好,优势仍然发挥不出来。然而,管理对于很多呼叫中心来说,却是很难过的门槛,数据挖掘能帮助简化管理。
预测话务量,安排人工座席,在呼叫中心中,话务量是个重要的指标,企业要根据话务量的大小,安排座席人员的数量,但话务量是个变化的指标,以往比较难以预测。通过数据挖掘中的时间序列分析,可以对话务量的情况进行一定程度的预测,就可以更合理地安排座席人员的数量,在不降低呼叫中心接通率的基础上,降低企业的运营成本。
进行关联分析,降低运营成本。在运营型的呼叫中心中,常常会提供很多种业务服务,并根据这些业务种类的不同,安排座席人员的数量和排班。通过数据挖掘中关联分析,可以进行业务的相关性分析,分析出哪几种业务具有比较强的关联性。如在快递行业,送生日蛋糕的业务与送鲜花的业务可能就有很大的关联性。这样,在安排座席人员时,就可以将两种业务的座席人员进行一定程度的合并,减少人员数量,降低呼叫中心的经营成本。
数字图书馆的数据挖掘
WEB挖掘是一个前景非常看好的工具。我们知道,传统的效率低下的搜索引擎检索出的信息往往索引不完全、有大量的无关信息或没有进行可靠性验证。用户能够快速方便地从WEB中检索出相关的可靠的信息是一个系统的最基本的要求。WEB挖掘不仅能够从WWW的大量的数据中发现信息,而且它监视和预测用户的访问习惯。这样给设计人员在设计WEB站点时有更多的可靠的信息。WEB挖掘技术能够帮助图书馆员在设计站点时朝着方便用户、节省时间和高效率方向发展。WEB挖掘技术为图书馆员进行信息服务提供了先进的工具。有了这个工具,图书馆员能够按照各个用户的要求或习惯,为用户组织更多、更好的高质量信息。
例如;院校图书馆员们应用WEB挖掘技术为本院校不同学科中的不同研究课题从WWW中检索相关信息。该技术可以自动地检索信息,并把信息按照课题领域进行分类,使它们更容易访问。图书馆员可以通过为不同的课题领域建立一组特征,并以这些特征为基础进行检索和分类,从而保证得到的信息是可靠的和具有权威性的。由于WEB挖掘技术能够自动地,不须人工干预地从WWW中发现和组织信息,从而使图书馆员只需花少量的时间来维护数据库即可完成任务。用户由于不需要花大量的时间来浏览成百上千的文档,就可在相当短的时间里得到想要的信息而感到非常满意。更重要的是,他们可以在任何时间访问到世界任何地方的信息。事实上,这就是图书馆员把他们的咨询服务从桌面转移到INTERNET的具体工作表现。
网站的数据挖掘
随着Web技术的发展,各类电子商务网站风起云涌。建立一个电子商务网站并不困难,困难的是如何让您的电子商务网站有效益。要想有效益就必须吸引客户,增加能带来效益的客户忠诚度。电子商务业务的竞争比传统的业务竞争更加激烈,原因有很多方面,其中一个因素是客户从一个电子商务网站转换到竞争对手那边,只需要点击几下鼠标即可。网站的内容和层次、用词、标题、奖励方案、服务等任何一个地方都有可能成为吸引客户、同时也可能成为失去客户的因素。而同时电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件(Log files)和登记表,如何对这些数据进行分析和挖掘,充分了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足不同客户群体需要的个性化网站,进而增加其竞争力,几乎变得势在必行。若想在竞争中生存进而获胜,就要比您的竞争对手更了解客户。
在对网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是客户的背景信息,此部分信息主要来自于客户的登记表;而另外一部分数据主要来自浏览者的点击流(Click-stream),此部分数据主要用于考察客户的行为表现。但有的时候,客户对自己的背景信息十分珍重,不肯把这部分信息填写在登记表上,这就会给数据分析和挖掘带来不便。在这种情况之下,就不得不从浏览者的表现数据中来推测客户的背景信息,进而再加以利用。
生物医学和DNA的数据挖掘
生物信息或基因数据挖掘对人类受益非浅。例如,基因的组合千变万化,得某种疾病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。
对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法上讲,更需要一些新的和好的算法。现在很多厂商正在致力于这方面的研究。但就技术和软件而言,还远没有达到成熟的地步。
因特网筛选的数据挖掘
最近,有不少数据挖掘产品用来筛选因特网上的新闻,保护用户不受无聊电子邮件和商业推销的干扰,很受欢迎。
气象预报中的数据挖掘
农业生产与气候、气象有着密切的关系,我国是一个农业大国,农业生产关系到国家经济命脉和人民生活。天气系统是一个复杂性系统,其影响因素多,时空状态变化大。气象数据中蕴含着复杂非线性动力学机制。各个因素之间的关系十分复杂,并具有纷杂多变的时空特征。因而,难以建立农业生产与气象要素的关系。采用新的技术和方法进行相关研究有实际意义,也是应用发展及需求的驱动,数据挖掘技术可以用来解决此问题。
国外利用数据挖掘来进行气象预报的应用研究所采用的方法主要包括:神经网络、分类和聚类;国内则有人采用了小波分析与语言场相结合的知识表示方法,针对气象数据提出一种新的基于小波分析和混沌理论相结合进行类别知识的发现方法,气象数据通过小波变换后可以提取表示天气系统的特征数据,利用特征数据同农业生产相关指标(如产量,害虫密度等)的关系进行数据挖掘,数据挖掘的方法包括:分类、聚类、关联规则以及相似模式等,从非结构化数据信息挖掘的角度构建了一个实用的、可扩展的、易操作的气象科学研究的应用系统。
水文数据的数据挖掘
信息获取与分析技术的快速发展,特别是遥测、遥感、网络、数据库等技术的应用,有力地促进了水文数据的采集和处理技术的发展,使之在时间和空间的尺度及要素类型上有了不同程度的扩展。由于水在人类生存发展中的特殊作用,应用各种新技术获取水文数据,挖掘蕴藏于水文数据中的知识,已成为水文科学发展的新热点。数字水文系统的提出是水文科学发展的时代标志之一。其核心是如何形成数字化的、覆盖整个指定地域空间的、多重时空尺度的、多种要素的、对水文分析有用的数据产品。
水文数据挖掘是精确水文预报和水文数据分析的重要基础。在我国,整个水文整编资料数据累计量已超过7000MB,加上进行水文预报所需的天气、地理等数据,进行水文分析所需要处理的数据量很大。从这些数量巨大、类型复杂的数据中及时准确地挖掘出满足需要的知识,往往因为计算能力、存储能力、算法的不足而无能为力。因此,需要高效的水文数据挖掘技术。数据挖掘技术在水文信息服务领域的应用将是多方面的。
数据挖掘一般有关联分析(Associations)、序列模式分析(Sequential Patterns)、分类分析(Classifiers)、聚类分析(Clustering)等功能类型。根据应用目标不同,数据挖掘可以采用或借鉴各种已经存在的理论和算法,如信息论、数理逻辑、进化计算、神经计算、统计学等以及面向实例的学习的许多算法都可以应用于数据挖掘系统的实现中。水文数据挖掘可以应用决策树、神经网络、覆盖正例排斥反例、粗糙集(Rough Set)、概念树、遗传算法、公式发现、统计分析、模糊论等理论与技术,并在可视化技术的支持下,构造满足不同目的的水文数据挖掘应用系统。
视频数据的数据挖掘
目前,多媒体数据已逐渐成为信息处理领域中主要的信息媒体形式,尤其是视频数据,由于它能记录、保留空间和时间上的各种信息,其内容丰富,但使人们能够以最接近自然的方式获得更多的细节。视频数据在生活中的应用越来越广泛,已产生了大量的数字视频库,目前的研究主要集中在数字视频库的组织管理和使用上,特别是基于内容的视频检索技术。基于内容的视频信息检索技术虽然在某种程度上解决了视频搜索和资源发现问题,但是,视频信息检索只能获取用户要求的视频“信息”,而不能从大量视频数据中分析出蕴含的有价值的用视频媒体表示的“知识”。为此,需要研究比检索和查询层次更高的视频分析方法,那就是视频挖掘(Video Mining)。视频挖掘就是通过综合分析视频数据的视听特性、时间结构、事件关系和语义信息,发现隐含的、有价值的、可理解的视频模式,得出视频表示事件的趋向和关联,改善视频信息管理的智能程度。
个人数据挖掘
个人数据挖掘的应用非常广泛,例如,可以挖掘公司记录,选择最好的合作伙伴;挖掘个人家庭医疗史,确定和遗传有关的医学模式,从而对生活方式和健康做出最优决策;挖掘股票和公司业绩来选择最优投资方式等。
数据挖掘工具的评价标准
如何选择满足自己需要的数据挖掘工具呢?评价一个数据挖掘工具,需要从以下几个方面来考虑:
1产生的模式种类的多少。
2解决复杂问题的能力。
数据量的增大,对模式精细度、准确度要求的增高都会导致问题复杂性的增大。数据挖掘系统可以提供下列方法解决复杂问题:
多种模式多种类别模式的结合使用有助于发现有用的模式,降低问题复杂性。例如,首先用聚类的方法把数据分组,然后再在各个组上挖掘预测性的模式,将会比单纯在整个数据集上进行操作更有效、准确度更高。
多种算法很多模式,特别是与分类有关的模式,可以有不同的算法来实现,各有各的优缺点,适用于不同的需求和环境。数据挖掘系统提供多种途径产生同种模式,将更有能力解决复杂问题。验证方法在评估模式时,有多种可能的验证方法。比较成熟的方法像N层交叉验证或Bootstrapping等可以控制,以达到最大的准确度。
数据选择和转换模式通常被大量的数据项隐藏。有些数据是冗余的,有些数据是完全无关的。而这些数据项的存在会影响到有价值的模式的发现。数据挖掘系统的一个很重要功能就是能够处理数据复杂性,提供工具,选择正确的数据项和转换数据值。
可视化工具提供直观、简洁的机制表示大量的信息。这有助于定位重要的数据,评价模式的质量,从而减少建模的复杂性。 扩展性为了更有效地提高处理大量数据的效率,数据挖掘系统的扩展性十分重要。需要了解的是:数据挖掘系统能否充分利用硬件资源?是否支持并行计算?算法本身设计为并行的或利用了DBMS的并行性能?支持哪种并行计算机,SMP服务器还是MPP服务器?当处理器的数量增加时,计算规模是否相应增长?是否支持数据并行存储?
为单处理器的计算机编写的数据挖掘算法不会在并行计算机上自动以更快的速度运行。为充分发挥并行计算的优点,需要编写支持并行计算的算法。
3易操作性
易操作性是一个重要的因素。有的工具有图形化界面,引导用户半自动化地执行任务,有的使用脚本语言。有些工具还提供数据挖掘的API,可以嵌入到像C、VisualBasic、PowerBuilder这样的编程语言中。
模式可以运用到已存在或新增加的数据上。有的工具有图形化的界面,有的允许通过使用C这样的程序语言或SQL中的规则集,把模式导出到程序或数据库中。
4数据存取能力
好的数据挖掘工具可以使用SQL语句直接从DBMS中读取数据。这样可以简化数据准备工作,并且可以充分利用数据库的优点(比如平行读取)。没有一种工具可以支持大量的DBMS,但可以通过通用的接口连接大多数流行的DBMS。Microsoft的ODBC就是一个这样的接口。
5与其他产品的接口
有很多别的工具可以帮助用户理解数据,理解结果。这些工具可以是传统的查询工具、可视化工具、OLAP工具。数据挖掘工具是否能提供与这些工具集成的简易途径?
国外的许多行业如通信、信用卡公司、银行和股票交易所、保险公司、广告公司、商店等已经大量利用数据挖掘工具来协助其业务活动,国内在这方面的应用还处于起步阶段,对数据挖掘技术和工具的研究人员以及开发商来说,我国是一个有巨大潜力的市场。
评论
查看更多